ฉันพยายามวิเคราะห์การรอดชีวิตแบบไม่ต่อเนื่องโดยใช้แบบจำลองการถดถอยแบบโลจิสติกส์และฉันไม่แน่ใจว่าฉันเข้าใจกระบวนการทั้งหมดอย่างสมบูรณ์ ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างมากกับคำถามพื้นฐานสองสามข้อ
นี่คือการตั้งค่า:
ฉันกำลังดูสมาชิกในกลุ่มภายในหน้าต่างเวลาห้าปี สมาชิกแต่ละคนมีบันทึกการเป็นสมาชิกรายเดือนสำหรับแต่ละเดือนที่สมาชิกอยู่ในกลุ่ม ฉันกำลังพิจารณาสมาชิกทั้งหมดที่สมาชิกเริ่มขึ้นในช่วงห้าปี (เพื่อหลีกเลี่ยงปัญหา "การเซ็นเซอร์ซ้าย" กับสมาชิกที่เข้าร่วมก่อนหน้านี้) แต่ละเร็กคอร์ดจะถูกทำดัชนีตามเวลาโดยเวลาหนึ่งคือเดือนที่สมาชิกเข้าร่วม ดังนั้นสมาชิกที่อยู่สองปีครึ่งจะมีบันทึกรายเดือนสามสิบหมายเลขจากหนึ่งถึงสามสิบ แต่ละเร็กคอร์ดจะได้รับตัวแปรไบนารีซึ่งจะมีค่าหนึ่งสำหรับเดือนสุดท้ายของการเป็นสมาชิกและเป็นศูนย์มิฉะนั้น ค่าหนึ่งสำหรับตัวแปรไบนารีทำเครื่องหมายเหตุการณ์ที่สมาชิกออกจากกลุ่ม สำหรับสมาชิกแต่ละคนที่ยังคงเป็นสมาชิกเกินกว่าหน้าต่างการวิเคราะห์ห้าปี
ดังนั้นรูปแบบการถดถอยโลจิสติกถูกสร้างขึ้นเพื่อทำนายค่าของตัวแปรเหตุการณ์ไบนารี จนถึงตอนนี้ดีมาก หนึ่งในวิธีทั่วไปในการประเมินรูปแบบการทำนายแบบไบนารี่คือการวัดการยกของตัวอย่างโฮลด์ สำหรับโมเดลการถดถอยโลจิสติกที่ฉันสร้างขึ้นเพื่อทำนายเหตุการณ์สิ้นสุดการเป็นสมาชิกฉันได้คำนวณการยกชุดข้อมูลที่เก็บไว้พร้อมกับอัตราส่วนห้าต่อหนึ่งของการไม่เกิดเหตุการณ์ต่อเหตุการณ์ ฉันจัดอันดับค่าที่ทำนายไว้เป็น deciles ช่วงทศวรรษที่มีค่าที่คาดการณ์ไว้สูงที่สุดนั้นมีค่าเจ็ดสิบเปอร์เซ็นต์ decile สองตัวแรกรวมกันมีหกสิบห้าเปอร์เซ็นต์ของทั้งหมดใน holdout ในบริบทบางอย่างนี้จะถือว่าเป็นรูปแบบการทำนายที่ค่อนข้างดี แต่ฉันสงสัยว่ามันดีพอที่จะทำการวิเคราะห์การอยู่รอด
Let เป็นฟังก์ชั่นอันตรายสำหรับบุคคลในเดือนและให้จะเป็นไปได้ว่าบุคคลรอดผ่านเดือนk
นี่คือคำถามพื้นฐานของฉัน:
ฟังก์ชั่นอันตรายแบบไม่ต่อเนื่อง, , ความน่าจะเป็นแบบมีเงื่อนไขของการไม่รอด (ออกจากกลุ่ม) ในแต่ละเดือนหรือไม่?
ค่าที่ทำนายจากการประมาณค่าแบบจำลองการถดถอยโลจิสติกส์ของฟังก์ชันอันตรายหรือไม่? (กล่าวคือเท่ากับแบบจำลองที่ทำนายค่าสำหรับjแต่ละตัวในเดือนkหรือทำอะไรมากกว่านี้ที่ต้องทำเพื่อให้ได้ค่าประมาณฟังก์ชันอันตราย?)
ความน่าจะเป็นของการอยู่รอดถึงเดือน q สำหรับแต่ละเท่ากับผลิตภัณฑ์ของหนึ่งลบฟังก์ชันอันตรายจากเดือนหนึ่งถึงqนั่นคือ S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] ) ?
ค่าเฉลี่ยของเหนือบุคคลทุกคนjสำหรับแต่ละครั้งที่kโดยประมาณที่สมเหตุสมผลของจำนวนประชากรโดยรวมหมายถึงโอกาสในการอยู่รอด
พล็อตของประชากรโดยรวมควรหมายถึงความน่าจะอยู่รอดในแต่ละเดือนซึ่งคล้ายกับกราฟรายเดือนของแคปแลน - ไมเออร์หรือไม่?
หากคำตอบของคำถามเหล่านี้ไม่ใช่ฉันก็มีความเข้าใจผิดอย่างรุนแรงและสามารถใช้ความช่วยเหลือ / คำอธิบายได้ นอกจากนี้ยังมีกฎง่ายๆสำหรับแบบจำลองการทำนายแบบไบนารีที่ดีแค่ไหนเพื่อที่จะสร้างโปรไฟล์การอยู่รอดที่ถูกต้อง?