เป็นความคิดที่ดีหรือไม่ที่จะให้ "เครดิตบางส่วน" (ผลอย่างต่อเนื่อง) ในการฝึกอบรมการถดถอยโลจิสติก?


10

ฉันกำลังฝึกอบรมการถดถอยโลจิสติกส์เพื่อคาดการณ์ว่านักวิ่งคนใดที่มีแนวโน้มที่จะจบการแข่งขันที่ทรหด

นักวิ่งน้อยมากที่จะเสร็จสิ้นการแข่งขันนี้ดังนั้นฉันจึงมีความไม่สมดุลระดับรุนแรงและเป็นตัวอย่างเล็ก ๆ ของความสำเร็จ ฉันรู้สึกเหมือนฉันจะได้รับบางดี "สัญญาณ" จากหลายสิบของนักวิ่งใครเกือบจะทำให้มัน (ข้อมูลการฝึกอบรมของฉันไม่เพียง แต่ทำให้เสร็จ แต่ยังรวมถึงข้อมูลที่ไม่เสร็จสมบูรณ์ด้วย) ฉันจึงสงสัยว่ามันเป็นความคิดที่น่ากลัวหรือไม่ที่จะรวมบางส่วนของ "เครดิตบางส่วน" ฉันมาพร้อมกับฟังก์ชั่นคู่สำหรับเครดิตบางส่วนทางลาดและโค้งโลจิสติกซึ่งอาจได้รับพารามิเตอร์ต่างๆ

ป้อนคำอธิบายรูปภาพที่นี่

ความแตกต่างเพียงอย่างเดียวกับการถดถอยคือฉันจะใช้ข้อมูลการฝึกอบรมเพื่อทำนายผลลัพธ์ที่ได้รับการแก้ไขและต่อเนื่องแทนที่จะเป็นผลลัพธ์ไบนารี การเปรียบเทียบการคาดการณ์ของพวกเขาในชุดทดสอบ (โดยใช้การตอบกลับแบบไบนารี่) ฉันได้ผลลัพธ์ที่สรุปไม่ได้ - เครดิตบางส่วนของโลจิสติกดูเหมือนจะปรับปรุง R-squared, AUC, P / R เล็กน้อย แต่นี่เป็นเพียงความพยายามครั้งเดียว ตัวอย่างเล็ก ๆ

ฉันไม่สนใจเกี่ยวกับการคาดการณ์ที่มีอคติอย่างสม่ำเสมอไปสู่ความสมบูรณ์ - สิ่งที่ฉันสนใจคือการจัดอันดับผู้เข้าแข่งขันให้ถูกต้องตามความเป็นไปได้ที่จะเสร็จหรืออาจประเมินความน่าจะเป็นของการทำ

ฉันเข้าใจว่าการถดถอยโลจิสติกถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวทำนายและบันทึกของอัตราต่อรองและเห็นได้ชัดว่าอัตราส่วนนี้ไม่มีการตีความที่แท้จริงถ้าฉันเริ่มยุ่งกับผลลัพธ์ ฉันแน่ใจว่านี่ไม่ใช่สมาร์ทจากมุมมองทางทฤษฎี แต่มันอาจช่วยให้ได้รับสัญญาณเพิ่มเติมและป้องกันการ overfitting (ฉันมีตัวทำนายเกือบเท่าความสำเร็จดังนั้นมันอาจเป็นประโยชน์ในการใช้ความสัมพันธ์กับการทำให้สมบูรณ์บางส่วนเป็นการตรวจสอบความสัมพันธ์กับการทำให้สมบูรณ์)

วิธีนี้เคยใช้ในการฝึกอย่างรับผิดชอบหรือไม่?

ไม่ว่าจะด้วยวิธีใดมีรุ่นอื่น ๆ ออกมาบ้างหรือบางทีอาจเป็นสิ่งที่จำลองแบบอัตราการเกิดอันตรายอย่างชัดเจนใช้ระยะทางมากกว่าระยะเวลาแทนซึ่งอาจเหมาะกว่าสำหรับการวิเคราะห์ประเภทนี้

คำตอบ:


11

ดูเหมือนว่าจะเป็นงานสำหรับการวิเคราะห์ความอยู่รอดเช่นการวิเคราะห์อันตรายตามสัดส่วนของ Cox หรือแบบจำลองการอยู่รอดแบบพารามิเตอร์

ลองคิดถึงปัญหานี้ในทางกลับกันจากวิธีที่คุณอธิบาย: ตัวแปรทำนายที่เกี่ยวข้องกับระยะทางก่อนหน้านี้ในการเลิกทำคืออะไร

การเลิกเป็นเหตุการณ์ ระยะทางที่ครอบคลุมอาจพิจารณาเท่ากับเวลาต่อเหตุการณ์ในการวิเคราะห์การรอดชีวิตแบบมาตรฐาน จากนั้นคุณมีเหตุการณ์จำนวนเท่ากับจำนวนบุคคลที่ออกดังนั้นปัญหาของคุณที่มีการคาดการณ์ที่ จำกัด จะลดน้อยลง ทุกคนที่เลิกให้ข้อมูล

โมเดล Cox หากมันทำงานกับข้อมูลของคุณจะจัดเตรียมตัวทำนายเชิงเส้นตามค่าตัวแปรตัวทำนายทั้งหมดจัดอันดับผู้เข้าแข่งขันตามลำดับระยะทางที่คาดการณ์ถึงการเลิก


ขอบคุณสำหรับสิ่งนี้. ดูเหมือนว่าคุณกำลังบอกว่าการใช้โมเดล Cox นักวิ่งที่มีระยะทางที่คาดการณ์ที่ยาวที่สุดในการเลิกสูบบุหรี่นั้นมีโอกาสน้อยที่จะลาออกก่อนถึงระยะทางสุดท้ายเนื่องจากระยะอันตรายสิ้นสุดลง ถูกต้องหรือไม่ นอกจากนี้เนื่องจากคุณแนะนำสิ่งนี้การคาดเดาแนวคิดเครดิตบางส่วนไม่ได้ทำให้คุณเป็นที่ยอมรับ
C8H10N4O2

ถูกต้องแล้ว ฉันเห็นการรวมตัวกันของระยะทางสู่การเลิกในแบบจำลองการเอาชีวิตรอดเป็นวิธีที่จะให้ "เครดิตบางส่วน" ในแบบที่มีเหตุผลทางทฤษฎีและการปฏิบัติที่ดีขึ้น ยังไม่ได้ดำเนินการตามรายละเอียด แต่ฉันคิดว่าสิ่งนี้จะบรรลุผลตามที่คุณต้องการตามที่แสดงในกราฟของคุณ
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.