ฉันจะตัดสินได้อย่างไรว่าโมเดลการเอาตัวรอดที่มีข้อมูลหายไปเหมาะสมหรือไม่


9

ฉันมีบันทึกประมาณล้านรายการที่บันทึกเวลาเข้าและเวลาออกของผู้คนในระบบซึ่งครอบคลุมประมาณสิบปี ทุกเรคคอร์ดมีเวลาเข้า แต่ไม่ใช่ทุกเรคคอร์ดมีเวลาออก เวลาเฉลี่ยในระบบคือ ~ 1 ปี

เวลาทางออกที่หายไปเกิดขึ้นด้วยเหตุผลสองประการ:

  1. บุคคลไม่ได้ออกจากระบบในเวลาที่ข้อมูลถูกจับ
  2. ไม่ได้บันทึกเวลาออกของบุคคลนั้น เรื่องนี้เกิดขึ้นกับ 50% ของบันทึก

คำถามที่น่าสนใจคือ:

  1. มีคนใช้เวลาน้อยลงในระบบและเวลาน้อยลง
  2. มีการบันทึกเวลาออกที่มากขึ้นและจำนวนเท่าไหร่

เราสามารถทำแบบนี้โดยบอกว่าความน่าจะเป็นที่ทางออกได้รับการบันทึกแตกต่างกันไปตามเวลาและเวลาในระบบมี Weibull ซึ่งพารามิเตอร์ต่างกันไปตามเวลา จากนั้นเราสามารถทำการประเมินความน่าจะเป็นสูงสุดของพารามิเตอร์ต่างๆและลูกตาผลลัพธ์และเห็นว่าน่าเชื่อถือ เราเลือกการแจกแจงแบบ Weibull เพราะดูเหมือนว่าจะใช้ในการวัดอายุการใช้งานและสนุกที่จะพูดเมื่อเทียบกับการปรับให้เหมาะสมกับข้อมูลที่ดีกว่าการบอกว่าเป็นการกระจายแกมม่า

ฉันควรหาเบาะแสว่าจะทำอย่างไรให้ถูกต้อง? เราค่อนข้างเข้าใจทางคณิตศาสตร์ แต่ไม่เข้าใจสถิติอย่างมาก

คำตอบ:


5

วิธีพื้นฐานในการดูว่าข้อมูลของคุณคือ Weibull หรือไม่คือการวางแผนบันทึกอันตรายสะสมเทียบกับจำนวนครั้งและดูว่าเส้นตรงอาจเหมาะสมหรือไม่ ความเป็นอันตรายสะสมสามารถพบได้โดยใช้เครื่องประมาณค่าแบบไม่มีพารามิเตอร์เนลสัน - อาเลน มีการวินิจฉัยกราฟิกที่คล้ายกันสำหรับการถดถอย Weibull ถ้าคุณพอดีกับข้อมูลของคุณกับ covariates และการอ้างอิงบางอย่างติดตาม

ข้อความKlein & Moeschbergerนั้นค่อนข้างดีและครอบคลุมพื้นที่จำนวนมากด้วยการสร้างแบบจำลอง / การวินิจฉัยสำหรับโมเดลพารามิเตอร์และกึ่งพารามิเตอร์ (แม้ว่าส่วนใหญ่จะเป็นหลัง) หากคุณทำงานใน R หนังสือของ Theneauนั้นค่อนข้างดี (ฉันเชื่อว่าเขาเขียนแพ็คเกจการเอาตัวรอด ) มันครอบคลุม Cox PH จำนวนมากและโมเดลที่เกี่ยวข้อง แต่ฉันจำไม่ได้ว่ามันมีโมเดลพาราเมตริกที่ครอบคลุมเช่นเดียวกับที่คุณกำลังสร้าง

BTW นี้เป็นล้านวิชาแต่ละคนมีหนึ่งรายการเข้า / ออกหรือเกิดขึ้นอีกรายการเหตุการณ์ / ออกสำหรับกลุ่มเล็ก ๆ ของคน? คุณมีความเป็นไปได้ที่จะพิจารณากลไกการเซ็นเซอร์หรือไม่?


ขอบคุณนี่คือสิ่งที่ฉันกำลังมองหา นี่คือวิชาหนึ่งล้านตัวแต่ละตัวมีเวลาเข้าและออก ใช่เรามีเงื่อนไขในการตรวจสอบ
deinst

2

คุณสามารถใช้แบบจำลองโดยประมาณเพื่อทำนายเวลาออกสำหรับทุกคนในระบบของคุณ จากนั้นคุณสามารถเปรียบเทียบเวลาออกโดยประมาณกับเวลาออกจริง (ที่คุณมีข้อมูลนี้) และคำนวณตัวชี้วัดเช่นRMSEเพื่อประเมินว่าการทำนายของคุณดีเพียงใดซึ่งจะทำให้คุณเข้าใจแบบจำลองได้ดี ดูลิงค์นี้


1
ด้วยคะแนน millon และแบบจำลองพารามิเตอร์ 8 ความดีของการทดสอบแบบพอดีเช่นไค - สแควร์บอกฉันว่าไม่มีโอกาสที่แบบจำลองนั้นถูกต้อง (ซึ่งไม่น่าแปลกใจเนื่องจากมีปัจจัยที่ไม่มีที่สิ้นสุดที่มีอิทธิพลต่อความเป็นจริงที่ไม่อยู่ในรุ่น) RMSE ทำให้ผมรู้สึกเป็นวิธีที่ดีรูปแบบเหมาะกับข้อมูล แต่ไม่ให้ฉันรู้สึกว่ามีรูปแบบที่ดีกว่า
deinst

เพื่อที่จะตรวจสอบว่ามีแบบจำลองที่ดีกว่านี้หรือไม่คุณสามารถทำการทดลองกับสูตรที่แตกต่างกันหรือคุณสามารถใช้พล็อตต่าง ๆ (เช่นออกจากเวลาเทียบกับเวลา) เพื่อดูว่าข้อมูลสอดคล้องกับสมมติฐานโมเดลของคุณหรือไม่ นอกจากนี้คุณยังสามารถลงจุดเวลาทางออกที่คาดการณ์ไว้สำหรับตัวอย่างขนาดเล็กที่เลือกโดยสุ่มตามเวลาจริงเพื่อใช้ในการปรับปรุงแบบจำลอง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.