Overfitting / Underfitting ด้วยขนาดชุดข้อมูล


11

ในกราฟด้านล่าง

  • แกน x => ขนาดชุดข้อมูล
  • แกน y => คะแนนการตรวจสอบไขว้

ป้อนคำอธิบายรูปภาพที่นี่

  • เส้นสีแดงใช้สำหรับข้อมูลการฝึกอบรม

  • สายสีเขียวสำหรับการทดสอบข้อมูล

ในบทช่วยสอนที่ฉันอ้างถึงผู้เขียนบอกว่าจุดที่เส้นสีแดงและเส้นสีเขียวทับกันหมายถึง

การรวบรวมข้อมูลมากขึ้นนั้นไม่น่าจะเพิ่มประสิทธิภาพการวางนัยทั่วไปและเราอยู่ในภูมิภาคที่เรามีแนวโน้มที่จะทำให้ข้อมูลไม่เหมาะสม ดังนั้นจึงเหมาะสมที่จะลองใช้โมเดลที่มีความจุมากขึ้น

ฉันไม่สามารถเข้าใจความหมายของวลีที่ชัดเจนและมันเกิดขึ้นได้อย่างไร

ขอบคุณสำหรับความช่วยเหลือใด ๆ


เส้นสีแดงและสีเขียวคืออะไร
Kasra Manshaei

1
@KasraManshaei: ฉันได้อัปเดตคำถามแล้ว
tharindu_DG

1
ถ้าเป็นไปได้โปรดเพิ่มลิงค์ไปยังบทช่วยสอน จะช่วยให้เราทำความเข้าใจคำตอบที่ดีกว่าและบริบท :)
Dawny33

@ Dawny33: มันเป็นวิดีโอการสอนและการอัปโหลดมันจะละเมิดปัญหาลิขสิทธิ์ที่ฉันเดา :)
tharindu_DG

คำตอบ:


6

ดังนั้นการ underfitting หมายความว่าคุณยังมีความสามารถในการปรับปรุงการเรียนรู้ของคุณในขณะที่ underfitting หมายความว่าคุณได้ใช้ความสามารถมากกว่าที่จำเป็นสำหรับการเรียนรู้

พื้นที่สีเขียวเป็นที่ที่ข้อผิดพลาดในการทดสอบเพิ่มขึ้นนั่นคือคุณควรให้ความจุอย่างต่อเนื่อง (จุดข้อมูลหรือความซับซ้อนของแบบจำลอง) เพื่อให้ได้ผลลัพธ์ที่ดีขึ้น เส้นสีเขียวมากขึ้นไปเรื่อย ๆ มันจะราบเรียบมากขึ้นนั่นคือคุณมาถึงจุดที่ความจุที่ให้ไว้ (ซึ่งคือข้อมูล) เพียงพอและดีกว่าที่จะลองใช้ความจุประเภทอื่นซึ่งเป็นความซับซ้อนของแบบจำลอง

ถ้ามันไม่ปรับปรุงคะแนนการทดสอบของคุณหรือลดลงนั่นหมายความว่าการรวมกันของความซับซ้อนของข้อมูลเป็นวิธีที่ดีที่สุดและคุณสามารถหยุดการฝึกอบรมได้


ขอบคุณสำหรับคำตอบ ฉันมีความคลุมเครือเล็กน้อย - ในตอนท้ายของกราฟเส้นสีเขียวและเส้นสีแดงแปรสภาพ ไม่ได้หมายความว่าเรามีข้อมูลเพียงพอสำหรับแบบจำลองของเราหรือไม่ - เป็นไปได้หรือไม่ที่จะได้รับความแม่นยำจากชุดทดสอบมากกว่าชุดฝึกอบรม? - ให้บอกว่าเรามีโมเดลที่ดีกว่าและกราฟนั้นควรมีลักษณะอย่างไร
tharindu_DG

1
"ไม่ได้หมายความว่าเรามีข้อมูลเพียงพอสำหรับแบบจำลองของเรา" นั่นคือสิ่งที่ฉันเขียน ใช่คุณมีข้อมูลเพียงพอดังนั้นหากคุณต้องการปรับปรุงคุณควรลองความซับซ้อนมากขึ้น ข้อมูลก็เพียงพอแล้ว "เป็นไปได้ไหมที่จะได้รับความแม่นยำจากชุดทดสอบมากกว่าชุดฝึกอบรม" ฉันไม่เคยเห็นสิ่งนี้มาก่อน ที่อาจเกิดขึ้นในการทดสอบเดียว แต่ไม่ได้โดยทั่วไป คำถามนี้สามารถแปลเป็น "ฉันรู้มากกว่าสิ่งที่ฉันรู้ได้หรือไม่" และคำตอบคือ "ไม่แน่นอน!"
Kasra Manshaei

1
"ให้บอกว่าเรามีโมเดลที่ดีกว่าและกราฟนั้นควรมีลักษณะอย่างไร" ฉันถือว่า (คุณลองและแจ้งให้เราทราบหากฉันถูก :)) ว่าทั้งการฝึกอบรมและการทดสอบปรับปรุงหรือไม่ใช่ของพวกเขา อาจเป็นไปได้ว่าการฝึกอบรมปรับปรุงและทดสอบการตก แต่ไม่ใช่ในทางกลับกันและอาจเป็นไปได้ว่าทั้งสองการปรับปรุงในขณะที่การทดสอบล้มลงซึ่งเรียกว่า Overfitting คุณควรหยุดการฝึกซ้อมที่จุดทดสอบจุดเริ่มตก
Kasra Manshaei

5

ในขณะที่ Kasra Manshaei ให้คำตอบทั่วไปที่ดี (+1) ฉันต้องการยกตัวอย่างที่เข้าใจง่าย

คิดว่าเป็นปัญหาที่ง่ายมาก: การติดตั้งฟังก์ชั่น{R} ในการทำเช่นนั้นคุณนำโมเดลจากคลาสพหุนาม เพื่อประโยชน์ในการโต้แย้งสมมติว่าคุณใช้พหุนามของระดับ 0 ความจุของแบบจำลองนี้มี จำกัด มากเนื่องจากมันพอดีกับค่าคงที่เท่านั้น โดยทั่วไปจะคาดเดาค่าเฉลี่ย (ขึ้นอยู่กับฟังก์ชันข้อผิดพลาดแน่นอน แต่ทำให้ง่าย) คุณจะได้ค่าประมาณที่ค่อนข้างดีว่าพารามิเตอร์ที่ดีที่สุดสำหรับรุ่นนี้คืออะไร ข้อผิดพลาดในการทดสอบและการฝึกอบรมของคุณจะเกือบจะเหมือนกันไม่ว่าคุณจะเพิ่มตัวอย่างจำนวนเท่าใด ปัญหาไม่ได้อยู่ที่ว่าคุณไม่ได้มีข้อมูลเพียงพอปัญหาคือว่ารูปแบบของคุณไม่เพียงพอที่มีประสิทธิภาพ: คุณunderfitf:[0,1]R

ลองไปอีกทาง: สมมติว่าคุณมีจุดข้อมูล 1,000 จุด รู้คณิตศาสตร์นิดหน่อยคุณเลือกพหุนามองศา 999 ตอนนี้คุณสามารถใส่ข้อมูลการฝึกได้อย่างลงตัว อย่างไรก็ตามข้อมูลของคุณอาจพอดีกับข้อมูลมากเกินไป ตัวอย่างเช่นดู (จากบล็อกของฉัน )

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีนี้คุณมีรุ่นอื่นที่พอดีกับข้อมูลอย่างสมบูรณ์ เห็นได้ชัดว่ารุ่นสีน้ำเงินดูเหมือนจะผิดธรรมชาติระหว่างดาต้าพอยน์ ตัวแบบเองอาจไม่สามารถดักจับการกระจายได้เป็นอย่างดีดังนั้นการ จำกัด รูปแบบให้เป็นสิ่งที่ง่ายกว่าอาจช่วยได้จริง นี้สามารถเป็นตัวอย่างของoverfitting


1
ดีมาก @moose! (+1) เพื่อความเข้าใจคำอธิบาย
Kasra Manshaei

0

ในกรณีของคุณคุณมีช่องว่างเล็ก ๆ (หรือไม่มี) ระหว่างรถไฟและเส้นโค้งทดสอบที่ระบุว่าโมเดลมีอคติ / underfit สูงการแก้ปัญหา: จำเป็นต้องเลือกแบบจำลองที่ซับซ้อนมากขึ้น - เพื่อประโยชน์ในการสำเร็จให้เพิ่มกรณีตรงข้ามเมื่อช่องว่างระหว่างรถไฟและเส้นโค้งการทดสอบมีขนาดใหญ่มากซึ่งบ่งชี้ว่ามีความแปรปรวน / การ overfitting สูงการแก้ไข: a) เพิ่มขนาดชุดข้อมูลต่อไป b) เลือกรูปแบบที่ซับซ้อนน้อยกว่า c) ทำการปรับสภาพ


0

คุณสามารถทำสิ่งใด ๆ / ทั้งหมดต่อไปนี้:

1) เปลี่ยนฟีเจอร์ที่คุณป้อนเข้าสู่โมเดล

2) เลือกรุ่นอื่นเพื่อทำงานกับ

3) โหลดข้อมูลเพิ่มเติมลงในโมเดล (อาจไม่ใช่ตัวเลือกสำหรับคุณ แต่โดยปกติจะเป็นตัวเลือก)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.