ในขณะที่ Kasra Manshaei ให้คำตอบทั่วไปที่ดี (+1) ฉันต้องการยกตัวอย่างที่เข้าใจง่าย
คิดว่าเป็นปัญหาที่ง่ายมาก: การติดตั้งฟังก์ชั่น{R} ในการทำเช่นนั้นคุณนำโมเดลจากคลาสพหุนาม เพื่อประโยชน์ในการโต้แย้งสมมติว่าคุณใช้พหุนามของระดับ 0 ความจุของแบบจำลองนี้มี จำกัด มากเนื่องจากมันพอดีกับค่าคงที่เท่านั้น โดยทั่วไปจะคาดเดาค่าเฉลี่ย (ขึ้นอยู่กับฟังก์ชันข้อผิดพลาดแน่นอน แต่ทำให้ง่าย) คุณจะได้ค่าประมาณที่ค่อนข้างดีว่าพารามิเตอร์ที่ดีที่สุดสำหรับรุ่นนี้คืออะไร ข้อผิดพลาดในการทดสอบและการฝึกอบรมของคุณจะเกือบจะเหมือนกันไม่ว่าคุณจะเพิ่มตัวอย่างจำนวนเท่าใด ปัญหาไม่ได้อยู่ที่ว่าคุณไม่ได้มีข้อมูลเพียงพอปัญหาคือว่ารูปแบบของคุณไม่เพียงพอที่มีประสิทธิภาพ: คุณunderfitf:[0,1]→R
ลองไปอีกทาง: สมมติว่าคุณมีจุดข้อมูล 1,000 จุด รู้คณิตศาสตร์นิดหน่อยคุณเลือกพหุนามองศา 999 ตอนนี้คุณสามารถใส่ข้อมูลการฝึกได้อย่างลงตัว อย่างไรก็ตามข้อมูลของคุณอาจพอดีกับข้อมูลมากเกินไป ตัวอย่างเช่นดู (จากบล็อกของฉัน )
ในกรณีนี้คุณมีรุ่นอื่นที่พอดีกับข้อมูลอย่างสมบูรณ์ เห็นได้ชัดว่ารุ่นสีน้ำเงินดูเหมือนจะผิดธรรมชาติระหว่างดาต้าพอยน์ ตัวแบบเองอาจไม่สามารถดักจับการกระจายได้เป็นอย่างดีดังนั้นการ จำกัด รูปแบบให้เป็นสิ่งที่ง่ายกว่าอาจช่วยได้จริง นี้สามารถเป็นตัวอย่างของoverfitting