1) มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ?
แบบจำลองการถดถอยโลจิสติกไม่มี "ข้อผิดพลาด" ในความหมายดั้งเดิม มันเป็นทั้งที่ใช้งานง่ายและไม่สอดคล้องกับระเบียบวิธี เอาต์พุตโมเดลถูกติดตั้งความน่าจะเป็นหรือความเสี่ยงในขณะที่ผลลัพธ์ที่สังเกตได้คือตัวบ่งชี้เหตุการณ์ 0/1 โดยทั่วไปแล้วคุณจะมีแนวโน้มที่จะเน้นโดเมนที่มีความน่าจะเป็นสูงหรือต่ำมาก (ให้ระยะทางที่เหลือน้อยมาก) ในขณะที่อัลกอริธึมการสร้างแบบจำลองมีความสำคัญมากขึ้นในภูมิภาคดังกล่าว ระยะทางกำลังสองโดยทั่วไปเป็นวิธีที่ไม่ดีในการปรับเทียบโมเดลการถดถอยโลจิสติก
อีกทางเลือกหนึ่งที่ดีของการทดสอบแบบพอดีคือการทดสอบ Hosmer-Lemeshow ซึ่งใช้ค่าติดตั้งเพื่อสร้างพาร์ติชันแบบ binned โดยพิจารณาจากความเสี่ยงที่เหมาะสม คุณสามารถอ่านเกี่ยวกับการทดสอบนี้ในการวิเคราะห์ข้อมูลอย่างละเอียดของ Alan Agresti หรือหนังสือ Logistic Regression โดย Hosmer และ Lemeshow ขั้นตอนหนึ่งคือการใช้ Studentized เหลือใช้ที่ความสัมพันธ์ของความแปรปรวนเฉลี่ยจะใช้ในการเหลือ reweight โดยพวกเขาติดตั้งแปรปรวนผกผัน สำหรับการถดถอยโลจิสติกนี่คือ
Rs t u d= Y- μμ ( 1 - μ )-------√
2) โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า
ฉันไม่เคยลบคะแนนตามการวิเคราะห์ความไว ถ้าฉันทำตัวอย่างสุ่ม 100 คนและรายได้ของพวกเขาและ 1 คนเป็นมหาเศรษฐีฉันก็จะได้ข้อสันนิษฐานที่ปลอดภัยที่สุดคือ 1 พันล้านคิดเป็น 1 ใน 100 ของประชากร