คุณไม่ต้องไป ฟังก์ชันการสูญเสียมีค่าต่ำสุดเหมือนกันไม่ว่าคุณจะใส่หรือไม่ก็ตาม หากคุณรวมไว้คุณจะได้รับการตีความที่ดีในการลดข้อผิดพลาดโดยเฉลี่ย (ครึ่งหนึ่ง) ต่อดาต้าพอยน์ อีกวิธีหนึ่งคุณลดอัตราข้อผิดพลาดให้น้อยที่สุดแทนที่จะเป็นข้อผิดพลาดทั้งหมด1ม.
พิจารณาเปรียบเทียบประสิทธิภาพกับชุดข้อมูลสองขนาดที่แตกต่างกัน ผลรวมดิบของข้อผิดพลาดกำลังสองนั้นไม่สามารถเปรียบเทียบกันได้โดยตรงเนื่องจากชุดข้อมูลขนาดใหญ่มักจะมีข้อผิดพลาดทั้งหมดมากกว่าเนื่องจากขนาดของชุดข้อมูลนั้น ในทางกลับกันข้อผิดพลาดเฉลี่ยต่อ DataPoint คือ
คุณอธิบายรายละเอียดเล็กน้อยได้ไหม?
แน่ใจ ชุดข้อมูลของคุณเป็นคอลเลกชันของจุดข้อมูล\} เมื่อคุณมีโมเดลแล้วข้อผิดพลาดกำลังสองน้อยที่สุดของบนจุดข้อมูลเดียวคือh h{ xผม, yผม}ชั่วโมงชั่วโมง
( เอช( x)ผม) -yผม)2
แน่นอนนี่แตกต่างกันไปสำหรับแต่ละดาต้าพอยน์ ตอนนี้ถ้าเราสรุปข้อผิดพลาด (และคูณครึ่งด้วยเหตุผลที่คุณอธิบาย) เราจะได้รับข้อผิดพลาดทั้งหมด
12Σผม( เอช( x)ผม) - yผม)2
แต่ถ้าเราหารด้วยจำนวนการสรุปเราจะได้รับข้อผิดพลาดเฉลี่ยต่อจุดข้อมูล
12 มΣผม( เอช( x)ผม) - yผม)2
ประโยชน์ของข้อผิดพลาดเฉลี่ยคือว่าถ้าเรามีสองชุดข้อมูลและของdiffereing ขนาดแล้วเราสามารถเปรียบเทียบข้อผิดพลาดเฉลี่ย แต่ไม่ใช่ข้อผิดพลาดทั้งหมด สำหรับถ้าชุดข้อมูลที่สองคือพูดขนาดของชุดข้อมูลแรกเป็นสิบเท่าจากนั้นเราคาดว่าข้อผิดพลาดทั้งหมดจะใหญ่ขึ้นประมาณสิบเท่าสำหรับรุ่นเดียวกัน ในทางกลับกันข้อผิดพลาดเฉลี่ยจะแบ่งผลกระทบของขนาดของชุดข้อมูลออกดังนั้นเราคาดว่าแบบจำลองของประสิทธิภาพที่คล้ายคลึงกันจะมีข้อผิดพลาดเฉลี่ยที่คล้ายกันในชุดข้อมูลที่แตกต่างกัน{ x ′ i , y ′ i }{xผม, yผม}{ x'ผม, y'ผม}