แนวคิดของ gui11aume ในการสร้างแบบจำลองสองขั้นตอนเป็นวิธีที่ถูกต้องอย่างไรก็ตามเราจำเป็นต้องพิจารณาความยากลำบากเป็นพิเศษของการตั้งค่าของคุณซึ่งมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน
ปัญหาหลักของการสร้างแบบจำลองสองขั้นตอนที่นี่คือแบบจำลองที่สอง (สำหรับการคาดการณ์หนี้) เมื่อสร้างขึ้นบน "ไม่ใช่ศูนย์" เท่านั้นถูกสร้างขึ้นบนตัวอย่างที่ไม่สุ่มของประชากร ( เช่นชุดข้อมูลทั้งหมด) แต่ต้องใช้โมเดลรวมกับประชากรทั้งหมดอีกครั้ง ซึ่งหมายความว่ารุ่นที่สองจะต้องทำการทำนายส่วนของข้อมูลที่ไม่เคยเห็นมาก่อนทำให้สูญเสียความแม่นยำ สิ่งนี้เรียกว่าการเลือกตัวอย่างอคติ (สำหรับภาพรวมจากมุมมอง ML ฉันขอแนะนำโครงร่างเครือข่ายแบบเบย์สำหรับการปฏิเสธการอนุมานโดย Smith และ Elkan)
KDD ถ้วย-98การจัดการกับปัญหาที่คล้ายกันที่หนึ่งควรคาดการณ์ว่าจะเป็นผู้บริจาคให้กับองค์กรทหารผ่านศึกมีแนวโน้มที่จะบริจาคอีกครั้งและเท่าใดก็มีแนวโน้มที่จะบริจาค ในชุดข้อมูลนี้ความน่าจะเป็นของการบริจาคอีกครั้งนั้นมีความสัมพันธ์เชิงลบกับจำนวนเงินที่คาดหวังเช่นกัน อคติการเลือกตัวอย่างก็ปรากฏขึ้นเช่นกัน
วิธีแก้ปัญหาที่ทำให้ฉันประทับใจมากที่สุดสามารถพบได้ในการเรียนรู้และการตัดสินใจเมื่อต้นทุนและความน่าจะเป็นไม่ทราบโดย Bianca Zadrozny และ Charles Elkan พวกเขาได้สร้างโซลูชันที่มีความอ่อนไหวด้านค่าใช้จ่ายตามการแก้ไขของ Heckmanซึ่งเป็นความรู้ของฉันเป็นวิธีแรกที่เป็นระบบในการแก้ไขอคติการเลือก (ตัวอย่าง)