แบบจำลองการอยู่รอดเพื่อทำนายการเปลี่ยนแปลง - ตัวทำนายเวลาที่ต่างกัน?


17

ฉันกำลังมองหาที่จะสร้างแบบจำลองการทำนายสำหรับทำนายปั่นป่วนและกำลังมองหาที่จะใช้แบบจำลองการอยู่รอดแบบไม่ต่อเนื่องเวลาพอดีกับชุดข้อมูลการฝึกอบรมระยะเวลาบุคคล (แถวหนึ่งสำหรับลูกค้าแต่ละรายและระยะเวลาไม่ต่อเนื่องพวกเขาตกอยู่ในความเสี่ยง ถ้าปั่นเกิดขึ้นในช่วงเวลานั้นอีก 0)

  • ฉันเหมาะสมกับโมเดลโดยใช้การถดถอยโลจิสติกส์ธรรมดาโดยใช้เทคนิคจากนักร้องและวิลเล็ต
  • จำนวนลูกค้าที่เกิดขึ้นสามารถเกิดขึ้นได้ทุกที่ในช่วงเดือน แต่มันก็แค่สิ้นเดือนที่เรารู้เกี่ยวกับมัน (บางครั้งในช่วงเดือนที่พวกเขาออกไป) ใช้เวลา 24 เดือนในการฝึกอบรม
  • ตัวแปรเวลาที่ใช้คือเวลาเริ่มต้นของตัวอย่าง - ลูกค้าทั้งหมดที่ใช้งานจนถึงวันที่ 12/31/2008 - พวกเขาทั้งหมดได้รับ t = 0 ตั้งแต่เดือนมกราคม 2552 (ไม่ใช่วิธีแบบดั้งเดิมที่จะทำ แต่ฉันเชื่อว่าวิธีการสร้าง แบบจำลองการทำนายกับแบบสถิติดั้งเดิม) covariate ที่ใช้คืออายุของลูกค้า ณ เวลานั้น
  • มีชุดของโควาเรียต์ที่สร้างขึ้น - บางชุดที่ไม่เปลี่ยนแปลงในแถวของชุดข้อมูล (สำหรับลูกค้าที่ระบุ) และบางชุดที่ทำ

  • ตัวแปรแปรปรวนเวลาเหล่านี้เป็นปัญหาและสิ่งที่ทำให้ฉันถามรูปแบบการอยู่รอดสำหรับการทำนายแบบปั่นป่วน (เปรียบเทียบกับตัวจําแนกปกติที่ทำนายการปั่นในอีก x เดือนถัดไปตามข้อมูลสแนปชอตปัจจุบัน) คนที่ไม่แปรเปลี่ยนเวลาอธิบายกิจกรรมในเดือนก่อนและคาดว่าจะเป็นตัวกระตุ้นที่สำคัญ

การดำเนินการตามรูปแบบการทำนายนี้อย่างน้อยตามความคิดปัจจุบันของฉันคือการให้คะแนนฐานลูกค้า ณ สิ้นเดือนแต่ละเดือนเพื่อคำนวณความน่าจะเป็น / ความเสี่ยงจากการปั่นป่วนในช่วงเดือนถัดไป จากนั้นอีกครั้งสำหรับ 1,2 หรือ 3 เดือนถัดไป จากนั้นสำหรับอีก 1,2,3,4,5,6 เดือน สำหรับความน่าจะเป็นในการปั่น 3 และ 6 เดือนฉันจะใช้กราฟการรอดชีวิตโดยประมาณ

ปัญหา:

เมื่อคิดถึงการให้คะแนนฉันจะรวมตัวพยากรณ์ที่ผันแปรตามเวลาได้อย่างไร ดูเหมือนว่าฉันจะสามารถทำคะแนนได้เฉพาะกับตัวทำนายเวลาที่ไม่แปรเปลี่ยนเวลาหรือรวมถึงสิ่งที่ไม่แปรเปลี่ยนเวลาคุณต้องทำให้พวกมันไม่แปรผันตามเวลา - ตั้งค่าเป็น "ตอนนี้"

ใครบ้างมีประสบการณ์หรือความคิดเกี่ยวกับการใช้แบบจำลองการอยู่รอดนี้

อัปเดตตามความคิดเห็นของ @JVM:

ปัญหาไม่ได้อยู่ที่การประเมินโมเดลการตีความค่าสัมประสิทธิ์การพล็อตเรื่องอันตราย / การเอาตัวรอดของค่าความแปรปรวนร่วมที่น่าสนใจโดยใช้ข้อมูลการฝึกอบรมเป็นต้นปัญหาอยู่ในรูปแบบการพยากรณ์ความเสี่ยงสำหรับลูกค้า พูดเมื่อสิ้นเดือนนี้ฉันต้องการให้คะแนนทุกคนที่ยังเป็นลูกค้าที่ใช้งานโมเดลนี้อยู่ ฉันต้องการคาดการณ์ว่าความเสี่ยงประมาณการ x ระยะเวลา (ความเสี่ยงของการปิดบัญชีเมื่อสิ้นเดือนถัดไปความเสี่ยงของการปิดบัญชีเมื่อสิ้นสองเดือนนับจากนี้เป็นต้น) หากมีเวลาแปรผันร่วมกันค่าของพวกมันจะไม่เป็นที่ทราบในช่วงเวลาใด ๆ ในอนาคตดังนั้นจะใช้โมเดลได้อย่างไร?

การปรับปรุงครั้งสุดท้าย:

ชุดข้อมูลช่วงเวลาบุคคลจะมีรายการสำหรับแต่ละคนและแต่ละช่วงเวลาที่มีความเสี่ยง บอกว่ามีช่วงเวลา J (อาจเป็น J = 1 ... 24 เป็นเวลา 24 เดือน) ให้บอกว่าฉันสร้างรูปแบบการอยู่รอดแบบไม่ต่อเนื่องเวลาที่ความเรียบง่ายเราแค่จัดการเวลา T เป็นเชิงเส้นและมี covariates สอง X และ Z โดย X คือเวลา - ความแปรปรวนหมายถึงค่าคงที่ในทุกช่วงเวลาสำหรับบุคคลที่สามและ Z คือเวลาต่างกันซึ่งหมายความว่าแต่ละระเบียนสำหรับบุคคลที่สามสามารถรับค่าที่แตกต่างกันได้ ตัวอย่างเช่น X อาจเป็นเพศลูกค้าและ Z อาจมีมูลค่าเท่าใดต่อ บริษัท ในเดือนก่อน แบบจำลองสำหรับ logit ของอันตรายสำหรับบุคคลที่ ith ในช่วงเวลา jth คือ:

ล.โอก.ผมเสื้อ(ชั่วโมง(เสื้อผมJ))=α0+α1TJ+β1Xผม+β2ZผมJ

ZJ

ทางออกเดียวที่ฉันคิดได้คือ:

  • อย่าใช้เวลาที่แปรปรวนร่วม covariates เช่น Z สิ่งนี้จะทำให้แบบจำลองอ่อนลงอย่างมากในการทำนายเหตุการณ์ที่เกิดจากการปั่นป่วนตั้งแต่นั้นเป็นต้นมาการเห็นการลดลงของ Z จะบอกเราว่าลูกค้ากำลังปลดประจำการและอาจเตรียมออกเดินทาง
  • ใช้เวลาแปรปรวนร่วม covariates แต่ล่าช้าพวกเขา (เช่น Z อยู่เหนือ) ซึ่งช่วยให้เราสามารถคาดการณ์ได้อย่างไรก็ตามหลายช่วงเวลาที่เรามีตัวแปรล่าช้า (อีกครั้งคิดว่ารูปแบบการให้คะแนนข้อมูลปัจจุบันใหม่)
  • ใช้เวลาแปรผันร่วมโควาเรียต แต่เก็บไว้เป็นค่าคงที่ในการคาดการณ์ (ดังนั้นแบบจำลองจึงเหมาะสำหรับข้อมูลที่แตกต่างกัน แต่สำหรับการทำนายเราปล่อยให้มันคงที่และจำลองการเปลี่ยนแปลงของค่าเหล่านี้ถ้าสังเกตในภายหลังจริง ๆ
  • ZJ

คำถามสองสามข้อ: ข้อแรกคุณใช้วิธีแบบจำลองเวลาแยกกันหรือไม่? สิ่งที่คุณต้องการทำอาจง่ายกว่าในโมเดลการอยู่รอดแบบอิงพารามิเตอร์ ประการที่สองคุณสามารถให้ตัวอย่างของสิ่งที่คุณหมายถึงปั่น อาจเป็นเพียงตัวอย่างของข้อมูลของคุณที่มีลักษณะอย่างไร
Jason Morgan

@JWM Churn หมายถึงลูกค้ายกเลิกบัญชีของพวกเขา เนื่องจากฉันรู้เพียงเดือนที่ลูกค้ายกเลิกฉันคิดว่าเวลาไม่ต่อเนื่องเหมาะสม ฉันเชื่อว่ามีปัญหาแบบเดียวกันกับตัวทำนายเวลาที่แตกต่างกันอยู่หากแบบจำลองนั้นไม่ต่อเนื่องหรือเวลาต่อเนื่อง (Cox หรือ AFT) ไม่?
B_Miner

ฉันขอโทษที่ยังไม่เข้าใจความกังวลของคุณ คุณควรจะสามารถประเมินโมเดลของคุณได้ดีพอ แม้ว่าเนื่องจากคุณอาจจะมีข้อผิดพลาดในการวัดใน TVC และตัวแปรตามคุณจึงควรใช้ความล่าช้าของ TVC ในโมเดล มิฉะนั้นคุณมีความเสี่ยงในการใช้ค่า covariate ซึ่งวัดจากการเกิดเหตุการณ์เป็นตัวทำนายเหตุการณ์ คุณสามารถดูปัญหาความสอดคล้องเวลา ในขณะที่ฉันรู้ว่าเป้าหมายของคุณคือการคาดการณ์หากคุณต้องการช่วงความมั่นใจที่สมเหตุสมผลคุณจะต้องประเมินข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ (อย่างน้อย)
Jason Morgan

@JVM เห็นได้ชัดว่าฉันอธิบายตัวเองไม่ดี ฉันเพิ่มการตอบกลับในคำถาม
B_Miner

t=0s>0P(Tผม>s+x|Fs)

คำตอบ:


1

ขอบคุณสำหรับการชี้แจง B_Miner ฉันไม่ได้คาดการณ์อะไรมากมายดังนั้นลองทำตามด้วยเกลือนิดหน่อย นี่คือสิ่งที่ฉันจะทำอย่างน้อยตัดครั้งแรกที่ข้อมูล

  • ขั้นแรกให้กำหนดและประเมินรุ่นที่อธิบายถึง TVC ของคุณ ทำการตรวจสอบข้ามข้อผิดพลาดการตรวจสอบข้อผิดพลาดและอื่น ๆ ทั้งหมดเพื่อให้แน่ใจว่าคุณมีโมเดลที่เหมาะสมสำหรับข้อมูล
  • ประการที่สองกำหนดและประมาณการรูปแบบการอยู่รอด ทำการตรวจสอบข้ามข้อผิดพลาดทั้งหมดเพื่อตรวจสอบว่ารุ่นนี้มีความสมเหตุสมผลเช่นกัน
  • ประการที่สามชำระในวิธีการใช้การพยากรณ์จากแบบจำลอง TVC เป็นพื้นฐานของการพยากรณ์ความเสี่ยงของการปั่นและสิ่งอื่นที่คุณต้องการ ตรวจสอบอีกครั้งว่าการคาดการณ์นั้นสมเหตุสมผลโดยใช้ตัวอย่างของคุณ

เมื่อคุณมีโมเดลที่คุณคิดว่าเหมาะสมฉันจะแนะนำให้ทำการ bootstrapping ข้อมูลเพื่อรวมข้อผิดพลาดใน TVC รุ่นแรกเข้ากับรุ่นที่สอง โดยทั่วไปให้ใช้ขั้นตอนที่ 1-3 N ทุกครั้งที่ใช้ตัวอย่างบูตสแตรปจากข้อมูลและสร้างชุดการคาดการณ์ เมื่อคุณมีการคาดการณ์ในจำนวนที่สมเหตุสมผลให้สรุปสิ่งเหล่านั้นในแบบที่คุณคิดว่าเหมาะสมสำหรับงานของคุณ เช่นจัดให้มีความเสี่ยงเฉลี่ยในการปั่นสำหรับรายบุคคลหรือรายละเอียดความแปรปรวนร่วมเช่นเดียวกับช่วงความเชื่อมั่น 95%


@JVM ฉันอ่านคุณอย่างถูกต้องหรือไม่ว่าคำแนะนำของคุณคือตัวเลือกการแก้ไขล่าสุดของฉันด้านบน (ในการอัปเดตครั้งสุดท้าย) คุณพัฒนาแบบจำลองเพื่อคาดการณ์แต่ละ Z (TVC) เพื่อใช้ในแบบจำลองการเอาตัวรอดจริงหรือไม่
B_Miner

2

อย่างที่ฉันเห็นมันมีกระบวนทัศน์การวิเคราะห์การเอาตัวรอดสองแบบที่สามารถใช้ได้ กรอบการถดถอยของ Cox อนุญาตให้เวลาแปรผันตามเวลาและจะประเมินความเสี่ยงของการยกเลิกที่กำหนดไว้ในชุดใด ๆ ของ covariates เทียบกับระดับเฉลี่ยของการยกเลิก เฟรมเวิร์ก glm พร้อมข้อผิดพลาดของปัวซองยังเป็นรูปแบบอันตรายตามสัดส่วนและเหมาะสมอย่างยิ่งกับช่วงเวลาที่ไม่ต่อเนื่อง JVM ได้ชี้ให้เห็นว่ามีข้อผิดพลาดที่อาจเกิดขึ้นในการใช้ข้อมูลที่ไม่สมบูรณ์ในเดือนปัจจุบัน แต่ความรู้สึกที่ฉันได้รับคือคุณต้องการประมาณการที่มีเงื่อนไขเกี่ยวกับค่าล่าสุดของการแปรปรวนร่วมหรือชุดของตัวแปร คำอธิบายที่ดีขึ้นของสถานการณ์ข้อมูลอาจทำให้ตัวอย่างทำงานได้ดีขึ้น ....

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.