ฉันกำลังมองหาที่จะสร้างแบบจำลองการทำนายสำหรับทำนายปั่นป่วนและกำลังมองหาที่จะใช้แบบจำลองการอยู่รอดแบบไม่ต่อเนื่องเวลาพอดีกับชุดข้อมูลการฝึกอบรมระยะเวลาบุคคล (แถวหนึ่งสำหรับลูกค้าแต่ละรายและระยะเวลาไม่ต่อเนื่องพวกเขาตกอยู่ในความเสี่ยง ถ้าปั่นเกิดขึ้นในช่วงเวลานั้นอีก 0)
- ฉันเหมาะสมกับโมเดลโดยใช้การถดถอยโลจิสติกส์ธรรมดาโดยใช้เทคนิคจากนักร้องและวิลเล็ต
- จำนวนลูกค้าที่เกิดขึ้นสามารถเกิดขึ้นได้ทุกที่ในช่วงเดือน แต่มันก็แค่สิ้นเดือนที่เรารู้เกี่ยวกับมัน (บางครั้งในช่วงเดือนที่พวกเขาออกไป) ใช้เวลา 24 เดือนในการฝึกอบรม
- ตัวแปรเวลาที่ใช้คือเวลาเริ่มต้นของตัวอย่าง - ลูกค้าทั้งหมดที่ใช้งานจนถึงวันที่ 12/31/2008 - พวกเขาทั้งหมดได้รับ t = 0 ตั้งแต่เดือนมกราคม 2552 (ไม่ใช่วิธีแบบดั้งเดิมที่จะทำ แต่ฉันเชื่อว่าวิธีการสร้าง แบบจำลองการทำนายกับแบบสถิติดั้งเดิม) covariate ที่ใช้คืออายุของลูกค้า ณ เวลานั้น
มีชุดของโควาเรียต์ที่สร้างขึ้น - บางชุดที่ไม่เปลี่ยนแปลงในแถวของชุดข้อมูล (สำหรับลูกค้าที่ระบุ) และบางชุดที่ทำ
ตัวแปรแปรปรวนเวลาเหล่านี้เป็นปัญหาและสิ่งที่ทำให้ฉันถามรูปแบบการอยู่รอดสำหรับการทำนายแบบปั่นป่วน (เปรียบเทียบกับตัวจําแนกปกติที่ทำนายการปั่นในอีก x เดือนถัดไปตามข้อมูลสแนปชอตปัจจุบัน) คนที่ไม่แปรเปลี่ยนเวลาอธิบายกิจกรรมในเดือนก่อนและคาดว่าจะเป็นตัวกระตุ้นที่สำคัญ
การดำเนินการตามรูปแบบการทำนายนี้อย่างน้อยตามความคิดปัจจุบันของฉันคือการให้คะแนนฐานลูกค้า ณ สิ้นเดือนแต่ละเดือนเพื่อคำนวณความน่าจะเป็น / ความเสี่ยงจากการปั่นป่วนในช่วงเดือนถัดไป จากนั้นอีกครั้งสำหรับ 1,2 หรือ 3 เดือนถัดไป จากนั้นสำหรับอีก 1,2,3,4,5,6 เดือน สำหรับความน่าจะเป็นในการปั่น 3 และ 6 เดือนฉันจะใช้กราฟการรอดชีวิตโดยประมาณ
ปัญหา:
เมื่อคิดถึงการให้คะแนนฉันจะรวมตัวพยากรณ์ที่ผันแปรตามเวลาได้อย่างไร ดูเหมือนว่าฉันจะสามารถทำคะแนนได้เฉพาะกับตัวทำนายเวลาที่ไม่แปรเปลี่ยนเวลาหรือรวมถึงสิ่งที่ไม่แปรเปลี่ยนเวลาคุณต้องทำให้พวกมันไม่แปรผันตามเวลา - ตั้งค่าเป็น "ตอนนี้"
ใครบ้างมีประสบการณ์หรือความคิดเกี่ยวกับการใช้แบบจำลองการอยู่รอดนี้
อัปเดตตามความคิดเห็นของ @JVM:
ปัญหาไม่ได้อยู่ที่การประเมินโมเดลการตีความค่าสัมประสิทธิ์การพล็อตเรื่องอันตราย / การเอาตัวรอดของค่าความแปรปรวนร่วมที่น่าสนใจโดยใช้ข้อมูลการฝึกอบรมเป็นต้นปัญหาอยู่ในรูปแบบการพยากรณ์ความเสี่ยงสำหรับลูกค้า พูดเมื่อสิ้นเดือนนี้ฉันต้องการให้คะแนนทุกคนที่ยังเป็นลูกค้าที่ใช้งานโมเดลนี้อยู่ ฉันต้องการคาดการณ์ว่าความเสี่ยงประมาณการ x ระยะเวลา (ความเสี่ยงของการปิดบัญชีเมื่อสิ้นเดือนถัดไปความเสี่ยงของการปิดบัญชีเมื่อสิ้นสองเดือนนับจากนี้เป็นต้น) หากมีเวลาแปรผันร่วมกันค่าของพวกมันจะไม่เป็นที่ทราบในช่วงเวลาใด ๆ ในอนาคตดังนั้นจะใช้โมเดลได้อย่างไร?
การปรับปรุงครั้งสุดท้าย:
ชุดข้อมูลช่วงเวลาบุคคลจะมีรายการสำหรับแต่ละคนและแต่ละช่วงเวลาที่มีความเสี่ยง บอกว่ามีช่วงเวลา J (อาจเป็น J = 1 ... 24 เป็นเวลา 24 เดือน) ให้บอกว่าฉันสร้างรูปแบบการอยู่รอดแบบไม่ต่อเนื่องเวลาที่ความเรียบง่ายเราแค่จัดการเวลา T เป็นเชิงเส้นและมี covariates สอง X และ Z โดย X คือเวลา - ความแปรปรวนหมายถึงค่าคงที่ในทุกช่วงเวลาสำหรับบุคคลที่สามและ Z คือเวลาต่างกันซึ่งหมายความว่าแต่ละระเบียนสำหรับบุคคลที่สามสามารถรับค่าที่แตกต่างกันได้ ตัวอย่างเช่น X อาจเป็นเพศลูกค้าและ Z อาจมีมูลค่าเท่าใดต่อ บริษัท ในเดือนก่อน แบบจำลองสำหรับ logit ของอันตรายสำหรับบุคคลที่ ith ในช่วงเวลา jth คือ:
ทางออกเดียวที่ฉันคิดได้คือ:
- อย่าใช้เวลาที่แปรปรวนร่วม covariates เช่น Z สิ่งนี้จะทำให้แบบจำลองอ่อนลงอย่างมากในการทำนายเหตุการณ์ที่เกิดจากการปั่นป่วนตั้งแต่นั้นเป็นต้นมาการเห็นการลดลงของ Z จะบอกเราว่าลูกค้ากำลังปลดประจำการและอาจเตรียมออกเดินทาง
- ใช้เวลาแปรปรวนร่วม covariates แต่ล่าช้าพวกเขา (เช่น Z อยู่เหนือ) ซึ่งช่วยให้เราสามารถคาดการณ์ได้อย่างไรก็ตามหลายช่วงเวลาที่เรามีตัวแปรล่าช้า (อีกครั้งคิดว่ารูปแบบการให้คะแนนข้อมูลปัจจุบันใหม่)
- ใช้เวลาแปรผันร่วมโควาเรียต แต่เก็บไว้เป็นค่าคงที่ในการคาดการณ์ (ดังนั้นแบบจำลองจึงเหมาะสำหรับข้อมูลที่แตกต่างกัน แต่สำหรับการทำนายเราปล่อยให้มันคงที่และจำลองการเปลี่ยนแปลงของค่าเหล่านี้ถ้าสังเกตในภายหลังจริง ๆ