ฉันไม่เห็นด้วยกับคำตอบอื่น ๆ ในความคิดเห็นดังนั้นฉันจึงให้ความยุติธรรมกับตัวเองเท่านั้น ให้เป็นการตอบสนอง (บัญชีดี / ไม่ดี) และเป็นผู้แปรสภาพXYX
สำหรับการถดถอยโลจิสติกแบบจำลองมีดังต่อไปนี้:
เข้าสู่ระบบ( p ( Y)= 1 | X= x )p ( Y)= 0 | X= x )) =α+ ∑ki = 1xผมβผม
คิดเกี่ยวกับวิธีการรวบรวมข้อมูล:
- คุณสามารถเลือกการสังเกตแบบสุ่มจาก "ประชากร" สมมุติฐานบางอย่าง
- คุณสามารถเลือกข้อมูลตามและดูว่าค่าเกิดขึ้นYXY
ทั้งสองอย่างนี้โอเคสำหรับโมเดลด้านบนเนื่องจากคุณเป็นแบบจำลองการกระจายของเท่านั้น เหล่านี้จะถูกเรียกว่าการศึกษาในอนาคตY| X
อีกวิธีหนึ่งคือ:
- คุณสามารถเลือกการสังเกตตาม (พูดได้ 100 ข้อ) และดูความชุกสัมพัทธ์ของ (เช่นคุณกำลังแบ่งชั้นบนY ) นี้เรียกว่าย้อนหลังหรือกรณีศึกษาการควบคุมXYXY
(คุณสามารถเลือกข้อมูลจากและตัวแปรบางตัวของX : นี่เป็นการศึกษาแบบแบ่งชั้นและมีความซับซ้อนมากในการทำงานด้วยดังนั้นฉันจะไม่เข้าไปที่นี่)YX
มีผลลัพธ์ที่ดีจากการระบาดวิทยา (ดูPrentice and Pyke (1979) ) ว่าสำหรับการศึกษาแบบควบคุมกรณีการประเมินความน่าจะเป็นสูงสุดสำหรับสามารถพบได้โดยการถดถอยโลจิสติกซึ่งใช้แบบจำลองที่คาดหวังสำหรับข้อมูลย้อนหลังβ
ดังนั้นสิ่งนี้เกี่ยวข้องกับปัญหาของคุณอย่างไร
ดีก็หมายความว่าถ้าคุณมีความสามารถในการเก็บรวบรวมข้อมูลเพิ่มเติมได้ที่คุณก็สามารถมองไปที่บัญชีที่ไม่ดีและยังคงใช้การถดถอยโลจิสติกในการประมาณ 's ( แต่คุณจะต้องปรับαไปยังบัญชีสำหรับมากกว่าการเป็นตัวแทน ) สมมติว่ามีค่าใช้จ่าย $ 1 สำหรับบัญชีพิเศษแต่ละบัญชีจากนั้นอาจมีประสิทธิภาพมากกว่าและเพียงแค่ดูบัญชีทั้งหมดβผมα
แต่ในทางกลับกันถ้าคุณมีข้อมูลที่เป็นไปได้ทั้งหมดแล้วมีจุดที่จะ stratifying ไม่มีคุณก็จะถูกทิ้งข้อมูล (ประมาณการให้แย่ลง) และจากนั้นจะเหลือกับปัญหาของการพยายามที่จะประเมินαα