หากสถิติเกี่ยวกับการเพิ่มความเป็นไปได้สูงสุดการเรียนรู้ด้วยเครื่องก็คือการลดความสูญเสียให้น้อยที่สุด เนื่องจากคุณไม่ทราบถึงความสูญเสียที่จะเกิดขึ้นกับข้อมูลในอนาคตคุณจึงลดการประมาณการเช่นการสูญเสียเชิงประจักษ์
ตัวอย่างเช่นหากคุณมีงานพยากรณ์และประเมินโดยจำนวนการจำแนกประเภทคุณสามารถฝึกอบรมพารามิเตอร์เพื่อให้ตัวแบบผลลัพธ์สร้างจำนวนการจำแนกประเภทที่เล็กที่สุดในข้อมูลการฝึกอบรม "จำนวนการจำแนกประเภทอื่น ๆ " (เช่นการสูญเสีย 0-1) เป็นฟังก์ชั่นการสูญเสียอย่างหนักที่จะทำงานด้วยเพราะมันไม่แตกต่างกันดังนั้นคุณจึงประมาณด้วย "ตัวแทน" ที่ราบรื่น ตัวอย่างเช่นการสูญเสียบันทึกเป็นขอบเขตบนการสูญเสีย 0-1 ดังนั้นคุณสามารถย่อให้เล็กที่สุดแทนและสิ่งนี้จะกลายเป็นเช่นเดียวกับการเพิ่มความน่าจะเป็นเงื่อนไขของข้อมูล ด้วยโมเดลพาราเมทริกวิธีนี้จะเทียบเท่ากับการถดถอยโลจิสติก
ในงานที่มีโครงสร้างการสร้างแบบจำลองและเข้าสู่ระบบการสูญเสียประมาณ 0-1 สูญเสียคุณจะได้รับสิ่งที่แตกต่างจากความน่าจะเป็นเงื่อนไขสูงสุดคุณจะเพิ่มแทนผลิตภัณฑ์ของ (เงื่อนไข) โอกาสเกิดร่อแร่
เพื่อให้การประมาณค่าการสูญเสียดีขึ้นผู้คนสังเกตเห็นว่ารูปแบบการฝึกอบรมเพื่อลดการสูญเสียและการใช้การสูญเสียดังกล่าวเป็นการประมาณการการสูญเสียในอนาคตนั้นเป็นการประเมินในแง่ดีมากเกินไป ดังนั้นสำหรับการลดขนาดที่ถูกต้อง (การสูญเสียในอนาคตที่แท้จริง) ที่แม่นยำยิ่งขึ้นพวกเขาเพิ่มคำว่าการแก้ไขความลำเอียงในการสูญเสียเชิงประจักษ์และลดให้น้อยที่สุดสิ่งนี้เรียกว่า
ในทางปฏิบัติการหาคำศัพท์การแก้ไขอคติที่ถูกต้องอาจยากเกินไปดังนั้นคุณจึงเพิ่มนิพจน์ "ในจิตวิญญาณ" ของคำว่าการแก้ไขอคติเช่นจำนวนผลรวมของพารามิเตอร์ ในท้ายที่สุดการเรียนรู้ด้วยเครื่องแบบ Parametric เกือบทุกวิธีจะจบลงด้วยการฝึกอบรมแบบจำลองเพื่อลดสิ่งต่อไปนี้
∑iL(m(xi,w),yi)+P(w)
โดยที่เป็นแบบจำลองของคุณ parametrized โดย vector ,ถูกนำไปใช้กับดาต้าพอยน์ทั้งหมด ,คือการประมาณที่ดีของการสูญเสียที่แท้จริงของคุณและคือ วาระ w i { x i , y i } L P ( w )mwi{xi,yi}LP(w)
ตัวอย่างเช่นหากคุณ ,วิธีการทั่วไปจะให้ , ,และเลือกโดยการตรวจสอบความถูกต้องข้าม y ∈ { - 1 , 1 } m ( x ) = เครื่องหมาย ( w ⋅ x ) L ( m ( x ) , y ) = - บันทึก( y × ( x ⋅ w ) ) P ( w ) = q × ( w ⋅ w )x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w))P(w)=q×(w⋅w)q