ระวังของoverfitting แบบจำลองที่ถูกต้องมากขึ้นของข้อมูลที่รวบรวมจากระบบอาจไม่ใช่ตัวทำนายที่ดีกว่าของพฤติกรรมในอนาคตของระบบ
ภาพด้านบนแสดงข้อมูลสองรุ่น
เส้นตรงค่อนข้างแม่นยำในข้อมูลการฝึกอบรม (คะแนนในกราฟ) และ (ใครคาดหวัง) มันจะค่อนข้างแม่นยำในข้อมูลการทดสอบ (ซึ่งคะแนนน่าจะเป็นสำหรับ x <5 และ x> -5 )
ในทางตรงกันข้ามพหุนามนั้นมีความถูกต้อง 100% สำหรับข้อมูลการฝึกอบรม แต่ (ยกเว้นว่าคุณมีเหตุผลใด ๆ ที่เชื่อว่าพหุนามระดับ 9 มีเหตุผลสำหรับเหตุผลทางกายภาพ) คุณจะถือว่านี่เป็นตัวทำนายที่แย่มากสำหรับ x> 5 และ x <-5
โมเดลเชิงเส้นคือ 'แม่นยำน้อยกว่า' ขึ้นอยู่กับการเปรียบเทียบข้อผิดพลาดใด ๆ กับข้อมูลที่เรารวบรวม แต่มันเป็นเรื่องทั่วไปมากขึ้น
นอกจากนี้วิศวกรต้องกังวลน้อยลงเกี่ยวกับแบบจำลองของพวกเขาและเพิ่มเติมเกี่ยวกับสิ่งที่ผู้คนจะทำกับแบบจำลอง
ถ้าฉันบอกคุณว่าเราจะไปเดินเล่นในวันที่อากาศร้อนและคาดว่าจะใช้เวลา 426 นาที คุณมีแนวโน้มที่จะนำน้ำน้อยกว่าถ้าฉันบอกคุณว่าการเดินจะนาน 7 ชั่วโมงและยิ่งน้อยกว่าถ้าฉันบอกว่าการเดินจะใช้เวลา 4-8 ชั่วโมง นี่เป็นเพราะคุณกำลังตอบสนองต่อระดับความเชื่อมั่นโดยนัยของฉันในการคาดการณ์ของฉันมากกว่าจุดกึ่งกลางของเวลาที่ฉันระบุ
หากคุณให้แบบจำลองที่ถูกต้องแก่ผู้คนผู้คนจะลดความผิดพลาดลง สิ่งนี้นำไปสู่ความเสี่ยงที่ใหญ่กว่า
ถ้าฉันรู้ว่าการเดินจะใช้เวลา 4-8 ชั่วโมงใน 95% ของคดีโดยมีความไม่แน่นอนเกี่ยวกับการนำทางและความเร็วในการเดิน การรู้ความเร็วการเดินของเราอย่างสมบูรณ์แบบจะลดความไม่แน่นอนของตัวเลข 4-8 แต่จะไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อ 'โอกาสที่เราจะใช้เวลานานจนน้ำกลายเป็นปัญหา' เพราะมันถูกขับเคลื่อนโดยการนำทางที่ไม่แน่นอนเกือบทั้งหมด ความเร็วในการเดินที่ไม่แน่นอน