ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน
ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ
ฉันเข้าใจROC
เส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง
ฉันควรใช้ค่า cutoff ที่ลดmisclassification rate
หรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ