ยอดคงเหลือในชุดการฝึกอบรม
สำหรับโมเดลการถดถอยแบบโลจิสติกส์ข้อมูลการฝึกอบรมที่ไม่สมดุลนั้นมีผลเฉพาะกับการประมาณของการสกัดกั้นแบบจำลอง (แม้ว่าหลักสูตรนี้จะบิดเบือนความน่าจะเป็นที่คาดการณ์ทั้งหมดซึ่งจะกระทบต่อการทำนายของคุณ โชคดีที่การแก้ไขการสกัดกั้นนั้นตรงไปตรงมา: หากคุณรู้หรือคาดเดาสัดส่วนที่แท้จริงของ 0s และ 1s และรู้สัดส่วนในชุดการฝึกอบรมที่คุณสามารถใช้การแก้ไขเหตุการณ์ที่หายากกับการสกัดกั้น รายละเอียดอยู่ในKing and Zeng (2001) [ PDF ]
'การแก้ไขเหตุการณ์ที่หายาก' เหล่านี้ถูกออกแบบมาสำหรับการออกแบบการควบคุมกรณีศึกษาซึ่งส่วนใหญ่ใช้ในการระบาดวิทยาที่เลือกกรณีโดยการเลือกจำนวนคงที่โดยปกติแล้วมีจำนวน 0 กรณีและ 1 กรณีแล้วต้องแก้ไขอคติการเลือกตัวอย่างที่เกิดขึ้น แน่นอนคุณอาจฝึกตัวจําแนกของคุณในลักษณะเดียวกัน เลือกตัวอย่างที่มีความสมดุลที่ดีจากนั้นแก้ไขการสกัดกั้นเพื่อพิจารณาข้อเท็จจริงที่ว่าคุณได้เลือกตัวแปรตามเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับคลาสที่หายากกว่าตัวอย่างแบบสุ่มจะสามารถบอกคุณได้
การทำนายผล
ในหัวข้อที่เกี่ยวข้อง แต่แตกต่างกัน: อย่าลืมว่าคุณควรทำการกำหนดใหม่อย่างชาญฉลาดเพื่อคาดการณ์ ไม่ควรทำนาย 1 เสมอเมื่อความน่าจะเป็นแบบจำลองมีค่ามากกว่า 0.5 เกณฑ์อื่นอาจดีกว่า ด้วยเหตุนี้คุณควรตรวจสอบเส้นโค้งการดำเนินงานของตัวรับ (ROC) ของตัวจําแนกของคุณไม่ใช่แค่ความสําเร็จในการทำนายด้วยค่าความน่าจะเป็นเริ่มต้น