ฉันมีบันทึกประมาณล้านรายการที่บันทึกเวลาเข้าและเวลาออกของผู้คนในระบบซึ่งครอบคลุมประมาณสิบปี ทุกเรคคอร์ดมีเวลาเข้า แต่ไม่ใช่ทุกเรคคอร์ดมีเวลาออก เวลาเฉลี่ยในระบบคือ ~ 1 ปี
เวลาทางออกที่หายไปเกิดขึ้นด้วยเหตุผลสองประการ:
- บุคคลไม่ได้ออกจากระบบในเวลาที่ข้อมูลถูกจับ
- ไม่ได้บันทึกเวลาออกของบุคคลนั้น เรื่องนี้เกิดขึ้นกับ 50% ของบันทึก
คำถามที่น่าสนใจคือ:
- มีคนใช้เวลาน้อยลงในระบบและเวลาน้อยลง
- มีการบันทึกเวลาออกที่มากขึ้นและจำนวนเท่าไหร่
เราสามารถทำแบบนี้โดยบอกว่าความน่าจะเป็นที่ทางออกได้รับการบันทึกแตกต่างกันไปตามเวลาและเวลาในระบบมี Weibull ซึ่งพารามิเตอร์ต่างกันไปตามเวลา จากนั้นเราสามารถทำการประเมินความน่าจะเป็นสูงสุดของพารามิเตอร์ต่างๆและลูกตาผลลัพธ์และเห็นว่าน่าเชื่อถือ เราเลือกการแจกแจงแบบ Weibull เพราะดูเหมือนว่าจะใช้ในการวัดอายุการใช้งานและสนุกที่จะพูดเมื่อเทียบกับการปรับให้เหมาะสมกับข้อมูลที่ดีกว่าการบอกว่าเป็นการกระจายแกมม่า
ฉันควรหาเบาะแสว่าจะทำอย่างไรให้ถูกต้อง? เราค่อนข้างเข้าใจทางคณิตศาสตร์ แต่ไม่เข้าใจสถิติอย่างมาก