คำนำ: ฉันไม่สนใจเกี่ยวกับข้อดีของการใช้ cutoff หรือไม่หรือควรเลือก cutoff ด้วยวิธีใด คำถามของฉันเป็นคณิตศาสตร์อย่างหมดจดและเนื่องจากความอยากรู้
การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขหลังของคลาส A กับคลาส B และมันเหมาะกับไฮเปอร์เพลนที่ความน่าจะเป็นแบบเงื่อนไขหลังมีค่าเท่ากัน ดังนั้นในทางทฤษฎีฉันเข้าใจว่า 0.5 การจำแนกจุดจะลดข้อผิดพลาดทั้งหมดโดยไม่คำนึงถึงความสมดุลเนื่องจากมันเป็นแบบจำลองความน่าจะเป็นด้านหลัง (สมมติว่าคุณพบอัตราส่วนระดับเดียวกันอย่างสม่ำเสมอ)
ในตัวอย่างชีวิตจริงของฉันฉันได้รับความแม่นยำต่ำมากโดยใช้ P> 0.5 เป็นตัวเลือกการแยกประเภทของฉัน (ความแม่นยำประมาณ 51%) อย่างไรก็ตามเมื่อฉันดูที่ AUC มันสูงกว่า 0.99 ดังนั้นฉันจึงดูค่า cutoff ที่แตกต่างกันและพบว่า P> 0.6 ให้ความแม่นยำ 98% (90% สำหรับคลาสที่เล็กกว่าและ 99% สำหรับคลาสที่ใหญ่กว่า) - มีเพียง 2% ของคดีที่ไม่ได้จัดประเภท
ชั้นเรียนมีความไม่สมดุลอย่างมาก (1: 9) และเป็นปัญหาระดับสูง อย่างไรก็ตามฉันจัดสรรคลาสอย่างเท่าเทียมกันในแต่ละชุดการตรวจสอบความถูกต้องไขว้กันเพื่อไม่ให้มีความแตกต่างระหว่างความสมดุลของคลาสระหว่างแบบจำลองพอดีกับการคาดเดา ฉันพยายามใช้ข้อมูลเดียวกันจากตัวแบบและในการทำนายและปัญหาเดียวกันก็เกิดขึ้น
ฉันสนใจในเหตุผลที่ 0.5 จะไม่ลดข้อผิดพลาดให้น้อยที่สุดฉันคิดว่านี่น่าจะเป็นเพราะการออกแบบถ้าแบบจำลองนั้นพอดีโดยลดการสูญเสียเอนโทรปี
ไม่มีใครมีข้อเสนอแนะใด ๆ เกี่ยวกับสาเหตุที่เกิดขึ้น? เป็นเพราะการเพิ่มบทลงโทษใครบางคนสามารถอธิบายสิ่งที่เกิดขึ้นถ้าเป็นเช่นนั้น?