การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร


16

บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ

นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น


แค่สงสัย - นี่เป็นเรื่องเกี่ยวกับว่า 50-50 แบ่งเป็นรถไฟ / การทดสอบดีกว่าพูด 75-25 หรือไม่?
ความน่าจะเป็น

คำตอบ:


22

ในสถานการณ์ส่วนใหญ่ข้อมูลได้มากขึ้นมักจะดีกว่า การเอาชนะมากเกินไปคือการเรียนรู้สหสัมพันธ์ปลอมที่เกิดขึ้นในข้อมูลการฝึกอบรมของคุณ แต่ไม่ใช่โลกแห่งความจริง ตัวอย่างเช่นหากคุณพิจารณาเฉพาะเพื่อนร่วมงานของฉันคุณอาจเรียนรู้ที่จะเชื่อมโยง "ชื่อแมตต์" กับ "มีเครา" ใช้ได้จริง 100% ( , แม้!) แต่โดยทั่วไปไม่เป็นความจริง การเพิ่มขนาดของชุดข้อมูลของคุณ (เช่นทั้งอาคารหรือเมือง) ควรลดความสัมพันธ์ปลอม ๆ เหล่านี้และปรับปรุงประสิทธิภาพของผู้เรียนของคุณn=4

นั่นคือสถานการณ์หนึ่งที่ข้อมูลจำนวนมากไม่ได้ช่วย --- และอาจเจ็บ - คือถ้าข้อมูลการฝึกอบรมเพิ่มเติมของคุณมีเสียงดังหรือไม่ตรงกับสิ่งที่คุณพยายามทำนาย ฉันเคยทำการทดลองที่ฉันเสียบโมเดลภาษาที่แตกต่างกัน [*] เข้ากับระบบจองร้านอาหารที่เปิดใช้งานด้วยเสียง ฉันเปลี่ยนแปลงปริมาณข้อมูลการฝึกอบรมรวมถึงความเกี่ยวข้อง: ณ จุดหนึ่งฉันมีคอลเล็กชั่นรวบรวมผู้คนที่จองโต๊ะอย่างละเอียดซึ่งเป็นคู่ที่สมบูรณ์แบบสำหรับใบสมัครของฉัน ที่อื่น ๆ ผมก็มีแบบประเมินจากขนาดใหญ่คอลเลกชันของวรรณกรรมคลาสสิกรูปแบบภาษาที่ถูกต้องมากขึ้น แต่การแข่งขันที่เลวร้ายมากไปยังโปรแกรมประยุกต์ ด้วยความประหลาดใจของฉันโมเดลที่มีขนาดเล็ก แต่มีความเกี่ยวข้องมีประสิทธิภาพสูงกว่าโมเดลที่มีขนาดใหญ่ แต่น้อยกว่านั้นมาก


สถานการณ์ที่น่าประหลาดใจที่เรียกว่าโคตรสองครั้งก็เกิดขึ้นเมื่อขนาดของชุดการฝึกอบรมใกล้เคียงกับจำนวนพารามิเตอร์โมเดล ในกรณีเหล่านี้ความเสี่ยงในการทดสอบจะลดลงก่อนตามขนาดของชุดฝึกอบรมที่เพิ่มขึ้นเพิ่มขึ้นชั่วคราวเมื่อเพิ่มข้อมูลการฝึกอบรมอีกเล็กน้อยและในที่สุดก็เริ่มลดลงอีกครั้งเมื่อชุดฝึกอบรมยังคงเติบโต ปรากฏการณ์นี้ถูกรายงาน 25 ปีในวรรณคดีโครงข่ายประสาท (ดู Opper, 1995) แต่เกิดขึ้นในเครือข่ายสมัยใหม่ด้วย ( Advani and Saxe, 2017 ) สิ่งที่น่าสนใจนี้เกิดขึ้นแม้จะมีการถดถอยเชิงเส้นแม้ว่าจะเหมาะสมโดย SGD ( Nakkiran, 2019) ปรากฏการณ์นี้ยังไม่เป็นที่เข้าใจอย่างสมบูรณ์และมีความสนใจในเชิงทฤษฎีเป็นส่วนใหญ่: ฉันจะไม่ใช้มันเป็นเหตุผลที่จะไม่รวบรวมข้อมูลเพิ่มเติม (แม้ว่าฉันอาจเล่นซอกับขนาดชุดฝึกอบรมหาก n == p และประสิทธิภาพการทำงานไม่ดีโดยไม่คาดคิด )


[*] โมเดลภาษาเป็นเพียงความน่าจะเป็นที่จะเห็นลำดับของคำเช่น'สุนัขจิ้งจอก'}) สิ่งเหล่านี้มีความสำคัญต่อการสร้างตัวจดจำคำพูด / อักขระที่เหมาะสมP(Wn='รวดเร็ว' Wn+1='น้ำตาล' Wn+2='สุนัขจิ้งจอก')



12

One note: โดยการเพิ่มข้อมูล (แถวหรือตัวอย่างไม่ใช่คอลัมน์หรือฟีเจอร์) โอกาสของการ overfitting ลดลงแทนที่จะเพิ่มขึ้น

สรุปสองย่อหน้าเป็นไปดังนี้:

  • การเพิ่มตัวอย่างเพิ่มความหลากหลาย มันลดข้อผิดพลาดการวางนัยทั่วไปเนื่องจากโมเดลของคุณกลายเป็นเรื่องทั่วไปมากขึ้นโดยอาศัยการฝึกฝนในตัวอย่างเพิ่มเติม
  • การเพิ่มคุณสมบัติการป้อนข้อมูลเพิ่มเติมหรือคอลัมน์ (ตัวอย่างจำนวนคงที่) อาจเพิ่มการ overfitting เนื่องจากคุณลักษณะเพิ่มเติมอาจไม่เกี่ยวข้องหรือซ้ำซ้อนและมีโอกาสมากขึ้นที่จะทำให้รูปแบบซับซ้อนขึ้นเพื่อให้พอดีกับตัวอย่างในมือ

มีเกณฑ์ง่าย ๆ ในการเปรียบเทียบคุณภาพของแบบจำลอง ลองดูตัวอย่างที่AICหรือBIC

พวกเขาทั้งสองแสดงให้เห็นว่าการเพิ่มข้อมูลมากขึ้นจะทำให้แบบจำลองดีขึ้นเสมอในขณะที่การเพิ่มความซับซ้อนของพารามิเตอร์เกินกว่าค่าที่เหมาะสมจะลดคุณภาพของแบบจำลอง


1

การเพิ่มข้อมูลการฝึกอบรมจะเพิ่มข้อมูลอยู่เสมอและควรปรับปรุงให้เหมาะสม ปัญหาจะเกิดขึ้นหากคุณประเมินประสิทธิภาพของตัวจําแนกเฉพาะข้อมูลการฝึกอบรมที่ใช้เพื่อความเหมาะสม สิ่งนี้สร้างการประเมินแบบเอนเอียงในแง่ดีและเป็นเหตุผลว่าทำไมจึงใช้การตรวจสอบความถูกต้องแบบลาทิ้งครั้งเดียวหรือ bootstrap แทน


1

จะเป็นการดีเมื่อคุณมีตัวอย่างการฝึกอบรมมากขึ้นคุณจะมีการทดสอบข้อผิดพลาดที่ต่ำกว่า (ความแปรปรวนของการลดลงของรูปแบบที่มีความหมายที่เราจะน้อย overfitting) แต่ในทางทฤษฎีข้อมูลได้มากขึ้นไม่ได้หมายความว่าคุณจะมีรูปแบบที่ถูกต้องมากขึ้นเนื่องจากรุ่นอคติสูง จะไม่ได้รับประโยชน์จากตัวอย่างการฝึกอบรมเพิ่มเติม

ดูที่นี่: ในการเรียนรู้ของเครื่องดีกว่า: ข้อมูลเพิ่มเติมหรืออัลกอริทึมที่ดีกว่า

ความแปรปรวนสูง - แบบจำลองที่แสดงถึงชุดการฝึกอบรมที่ดี แต่มีความเสี่ยงในการจัดเก็บข้อมูลการฝึกอบรมที่มีเสียงดังหรือไม่เป็นจริง

High bias - แบบจำลองที่ง่ายกว่าซึ่งไม่น่าจะเหมาะกับการใช้งานมากนัก แต่อาจรองรับข้อมูลการฝึกอบรมได้ต่ำกว่า


-1

การวิเคราะห์สเปกตรัมจะช่วยในการวิเคราะห์ความหลากหลายของกลุ่มตัวอย่างอันที่จริงแล้วข้อมูลเท็จจะได้รับการเรียนรู้ในการสร้างแบบจำลองหากไม่ได้เพิ่ม "ตัวอย่างจริง" ซึ่งมักจะเรียกว่า โดยปกติหากข้อมูลที่ให้โดยตัวอย่างน้อยกว่าจะมีการสนับสนุนตัวอย่างจริงมากขึ้นเพื่อให้มั่นใจว่าข้อมูลที่เป็นประโยชน์สามารถนำไปใช้ในการทดสอบได้ โชคดี!


3
เป็นการยากที่จะทำความเข้าใจกับคำตอบนี้ บางทีมันแปลด้วยเครื่องจากภาษาอื่นบ้างไหม? มีวิธีใดบ้างที่คุณสามารถตรวจสอบและแก้ไขเพื่อถ่ายทอดความคิดที่คุณต้องการแบ่งปันกับเรา
whuber

ฉันไม่เข้าใจว่าคำตอบของคุณคืออะไร
user162580

3
ดูเหมือนว่าเรามีปัญหาภาษา: คำที่คุณโพสต์ไม่สมเหตุสมผลในภาษาอังกฤษ คุณสามารถเปลี่ยนพวกเขาเพื่อให้เหมาะสมหรือไม่
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.