ฉันกำลังฝึกอบรมการถดถอยโลจิสติกส์เพื่อคาดการณ์ว่านักวิ่งคนใดที่มีแนวโน้มที่จะจบการแข่งขันที่ทรหด
นักวิ่งน้อยมากที่จะเสร็จสิ้นการแข่งขันนี้ดังนั้นฉันจึงมีความไม่สมดุลระดับรุนแรงและเป็นตัวอย่างเล็ก ๆ ของความสำเร็จ ฉันรู้สึกเหมือนฉันจะได้รับบางดี "สัญญาณ" จากหลายสิบของนักวิ่งใครเกือบจะทำให้มัน (ข้อมูลการฝึกอบรมของฉันไม่เพียง แต่ทำให้เสร็จ แต่ยังรวมถึงข้อมูลที่ไม่เสร็จสมบูรณ์ด้วย) ฉันจึงสงสัยว่ามันเป็นความคิดที่น่ากลัวหรือไม่ที่จะรวมบางส่วนของ "เครดิตบางส่วน" ฉันมาพร้อมกับฟังก์ชั่นคู่สำหรับเครดิตบางส่วนทางลาดและโค้งโลจิสติกซึ่งอาจได้รับพารามิเตอร์ต่างๆ
ความแตกต่างเพียงอย่างเดียวกับการถดถอยคือฉันจะใช้ข้อมูลการฝึกอบรมเพื่อทำนายผลลัพธ์ที่ได้รับการแก้ไขและต่อเนื่องแทนที่จะเป็นผลลัพธ์ไบนารี การเปรียบเทียบการคาดการณ์ของพวกเขาในชุดทดสอบ (โดยใช้การตอบกลับแบบไบนารี่) ฉันได้ผลลัพธ์ที่สรุปไม่ได้ - เครดิตบางส่วนของโลจิสติกดูเหมือนจะปรับปรุง R-squared, AUC, P / R เล็กน้อย แต่นี่เป็นเพียงความพยายามครั้งเดียว ตัวอย่างเล็ก ๆ
ฉันไม่สนใจเกี่ยวกับการคาดการณ์ที่มีอคติอย่างสม่ำเสมอไปสู่ความสมบูรณ์ - สิ่งที่ฉันสนใจคือการจัดอันดับผู้เข้าแข่งขันให้ถูกต้องตามความเป็นไปได้ที่จะเสร็จหรืออาจประเมินความน่าจะเป็นของการทำ
ฉันเข้าใจว่าการถดถอยโลจิสติกถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวทำนายและบันทึกของอัตราต่อรองและเห็นได้ชัดว่าอัตราส่วนนี้ไม่มีการตีความที่แท้จริงถ้าฉันเริ่มยุ่งกับผลลัพธ์ ฉันแน่ใจว่านี่ไม่ใช่สมาร์ทจากมุมมองทางทฤษฎี แต่มันอาจช่วยให้ได้รับสัญญาณเพิ่มเติมและป้องกันการ overfitting (ฉันมีตัวทำนายเกือบเท่าความสำเร็จดังนั้นมันอาจเป็นประโยชน์ในการใช้ความสัมพันธ์กับการทำให้สมบูรณ์บางส่วนเป็นการตรวจสอบความสัมพันธ์กับการทำให้สมบูรณ์)
วิธีนี้เคยใช้ในการฝึกอย่างรับผิดชอบหรือไม่?
ไม่ว่าจะด้วยวิธีใดมีรุ่นอื่น ๆ ออกมาบ้างหรือบางทีอาจเป็นสิ่งที่จำลองแบบอัตราการเกิดอันตรายอย่างชัดเจนใช้ระยะทางมากกว่าระยะเวลาแทนซึ่งอาจเหมาะกว่าสำหรับการวิเคราะห์ประเภทนี้