โมเดล Cox เทียบกับการถดถอยโลจิสติก


15

สมมติว่าเราได้รับปัญหาต่อไปนี้:

ทำนายว่าลูกค้ารายใดที่มีแนวโน้มจะหยุดซื้อในร้านของเราในอีก 3 เดือนข้างหน้า
สำหรับลูกค้าแต่ละรายเรารู้ว่าเดือนใดที่ลูกค้าเริ่มซื้อสินค้าในร้านของเราและนอกจากนี้เรายังมีคุณสมบัติด้านพฤติกรรมหลายอย่างในการรวบรวมรายเดือน ลูกค้า 'คนโต' ซื้อมาแล้วห้าสิบเดือน มาแสดงเวลาตั้งแต่ลูกค้าเริ่มซื้อโดย ( ) สามารถสันนิษฐานได้ว่าจำนวนลูกค้ามีขนาดใหญ่มาก หากลูกค้าหยุดซื้อเป็นเวลาสามเดือนจากนั้นกลับมาเขาจะถือว่าเป็นลูกค้าใหม่เพื่อให้เหตุการณ์ (หยุดซื้อ) สามารถเกิดขึ้นได้เพียงครั้งเดียวt [ 0 , 50 ]tt[0,50]

การแก้ปัญหาสองข้อนั้นอยู่ในใจของฉัน:

การถดถอยแบบลอจิสติก - สำหรับลูกค้าแต่ละรายและในแต่ละเดือน (อาจยกเว้น 3 เดือนล่าสุด) เราสามารถพูดได้ว่าลูกค้าหยุดซื้อหรือไม่ดังนั้นเราสามารถทำการสุ่มตัวอย่างด้วยการสังเกตหนึ่งครั้งต่อลูกค้าและเดือน เราสามารถใช้จำนวนเดือนนับตั้งแต่เริ่มต้นเป็นตัวแปรเด็ดขาดเพื่อรับฟังก์ชั่นความอันตรายพื้นฐานบางอย่าง

Extended Cox model - ปัญหานี้สามารถจำลองได้ด้วยการใช้ Extended Cox model ดูเหมือนว่าปัญหานี้เหมาะกับการวิเคราะห์เพื่อความอยู่รอด

คำถาม:อะไรคือข้อดีของการวิเคราะห์การอยู่รอดในปัญหาที่คล้ายกัน? การวิเคราะห์การอยู่รอดถูกคิดค้นขึ้นด้วยเหตุผลบางอย่างดังนั้นจะต้องมีข้อได้เปรียบที่ร้ายแรงบางอย่าง

ความรู้ของฉันในการวิเคราะห์การเอาชีวิตรอดนั้นไม่ลึกมากและฉันคิดว่าข้อดีที่เป็นไปได้มากที่สุดของโมเดล Cox สามารถทำได้โดยใช้การถดถอยโลจิสติก

  • รูปแบบค็อกซ์เทียบเท่าสามารถแบ่งชั้นได้โดยใช้การโต้ตอบของและตัวแปรแบ่งชั้น t
  • แบบจำลองปฏิสัมพันธ์ Cox สามารถรับได้โดยการดำดิ่งประชากรลงในประชากรย่อยหลาย ๆ แห่งและประเมิน LR สำหรับประชากรย่อยทุกคน

ข้อได้เปรียบเดียวที่ฉันเห็นคือรุ่น Cox นั้นมีความยืดหยุ่นมากกว่า ตัวอย่างเช่นเราสามารถคำนวณความน่าจะเป็นที่ลูกค้าจะหยุดซื้อใน 6 เดือนได้อย่างง่ายดาย

คำตอบ:


10

ปัญหาของรุ่น Cox ก็คือมันไม่ได้คาดการณ์อะไร "การสกัดกั้น" (ฟังก์ชั่นอันตรายพื้นฐาน) ในโมเดล Cox นั้นไม่เคยถูกประเมินอย่างแท้จริง การถดถอยแบบลอจิสติกสามารถใช้ในการทำนายความเสี่ยงหรือความน่าจะเป็นสำหรับเหตุการณ์บางกรณีในกรณีนี้ไม่ว่าจะมีเรื่องเข้ามาซื้อของบางอย่างในเดือนใดเดือนหนึ่ง

ปัญหาของข้อสันนิษฐานที่อยู่เบื้องหลังการถดถอยแบบโลจิสติกส์ทั่วไปคือคุณปฏิบัติต่อการสังเกตแต่ละเดือนอย่างอิสระโดยไม่คำนึงว่าเป็นบุคคลเดียวกันหรือในเดือนเดียวกันที่การสังเกตเกิดขึ้น สิ่งนี้อาจเป็นอันตรายได้เนื่องจากบางรายการซื้อในช่วงเวลาสองเดือนดังนั้นการสังเกตบุคคลที่ต่อเนื่องกันเป็นรายเดือนจึงมีความสัมพันธ์เชิงลบ อีกวิธีหนึ่งลูกค้าสามารถรักษาหรือสูญเสียจากประสบการณ์ที่ดีหรือไม่ดีที่นำคนติดต่อกันโดยการสังเกตเดือนมีความสัมพันธ์เชิงบวก

ฉันคิดว่าการเริ่มต้นที่ดีในการทำนายปัญหานี้คือการนำแนวทางการพยากรณ์มาใช้ซึ่งเราสามารถใช้ข้อมูลก่อนหน้าเพื่อแจ้งการคาดการณ์เกี่ยวกับธุรกิจของเดือนถัดไป เริ่มต้นที่ง่ายในการแก้ไขปัญหานี้มีการปรับสำหรับผล lagged หรือตัวบ่งชี้ว่าเป็นเรื่องที่ได้เข้ามาในที่ผ่านมาเดือนเป็นปัจจัยบ่งชี้ว่าพวกเขาอาจจะมาถึงนี้เดือน


2
การถดถอยโลจิสติกหลายระดับไม่สามารถใช้ที่นี่เพื่อแก้ปัญหาความเป็นอิสระได้หรือไม่? ระดับ 2 จะเป็นลูกค้าและระดับ 1 จะใช้มาตรการซ้ำเมื่อเวลาผ่านไป
Forinstance

1
@AdamO สามารถสกัดกั้นการประมาณและรวมกับการทำนายอันตรายบางส่วนของแต่ละบุคคลเราสามารถสร้างเส้นโค้งการอยู่รอดของแต่ละบุคคล ฉันไม่แน่ใจว่าทำไมคุณคิดว่ารูปแบบ Cox สามารถทำนาย "ไม่มีอะไร"
Cam.Davidson.Pilon

δ

สำหรับวัตถุประสงค์ในการทำนายฉันรู้สึกว่านี่ไม่ใช่ตัวบล็อก ไม่ใช่เรื่องผิดปกติที่จะรวมการประมาณหลาย ๆ อย่างเข้าด้วยกันเพื่อสร้างการทำนายเดียวและ (น่าเสียดายที่ฉันไม่ได้เรียกร้องมัน) ช่วงเวลาการทำนายนั้นไม่ได้ใช้กันทั่วไปหรือมีอยู่แล้ว
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon ฉันไม่ได้บอกว่าการทำนายความเสี่ยงไม่สามารถหาได้จากข้อมูลการอยู่รอดฉันบอกว่าแบบจำลองของ Cox นั้นไม่สามารถทำนายความเสี่ยงได้ ขั้นตอนระหว่างการโทรcoxphและการรับความเสี่ยงมีสูงและหลายอย่าง
AdamO

3

Tjjราคา(TJ>3)J3

การวิเคราะห์ความอยู่รอดคำนึงถึงความจริงที่ว่าลูกค้าแต่ละคนมีเวลาเข้าศึกษาของตนเอง ความจริงที่ว่าระยะเวลาการติดตามแตกต่างกันไปตามลูกค้าดังนั้นจึงไม่ใช่ปัญหา

นอกจากนี้หากลูกค้าไม่หยุดซื้อในช่วงระยะเวลาการศึกษาจะมีการบันทึกเวลาการติดตามครั้งสุดท้ายและข้อมูลจะถูกตรวจสอบอย่างถูกต้อง เทคนิคการวิเคราะห์การอยู่รอดได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการเซ็นเซอร์อย่างถูกต้องJ


หมายเหตุ : นี่เป็นบทความที่แสดงให้เห็นว่าภายใต้ข้อ จำกัด บางประการทั้งแบบโลจิสติกและโมเดล Cox เชื่อมโยงกัน


ขอบคุณสำหรับคำตอบ. หาก SA จัดการกับการเซ็นเซอร์อย่างถูกต้องแสดงว่าโซลูชัน LR ไม่จัดการเซ็นเซอร์อย่างถูกต้อง มันส่งผลอย่างไร ฉันยังคงไม่สามารถโน้มน้าวใจ myselft ได้ว่า SA นั้นดีกว่าสำหรับเวลาที่กำหนด ฉันสามารถหาบทความนี้ได้ฟรีจากที่ไหน?
Tomek Tarczynski

ฉันเดาว่าคุณจะบันทึก (ไม่มีเหตุการณ์) สำหรับการสังเกตที่ถูกเซ็นเซอร์ นี่จะประเมินความน่าจะเป็นของเหตุการณ์ต่ำเกินไปและอาจนำไปสู่อคติ เกี่ยวกับกระดาษฉันสามารถส่งถ้าคุณออกจากที่อยู่อีเมล Y=0
ocram

อีเมลของฉันคือ: tomek.tarczynski@gmail.com ขอบคุณมาก!
Tomek Tarczynski

@TomekTarczynski: ได้รับ?
ocram

ใช่ขอบคุณอีกครั้ง! พรุ่งนี้ฉันจะมีเวลาอ่านอย่างระมัดระวังมากขึ้น ฉันแค่อ่านมันและถ้าฉันเข้าใจอย่างถูกต้องมันจะแก้ไขปัญหาที่แตกต่างออกไปเล็กน้อย เมื่อใช้การเปรียบเทียบร้านค้าจะเปรียบเทียบ LR และ COX กับปัญหา "ความน่าจะเป็นที่ลูกค้าจะไม่เป็นลูกค้าอีกต่อไปหลังจากกำหนดจำนวนเดือนเป็นจำนวนคงที่แล้ว"
Tomek Tarczynski

2

วรรณคดีการตลาดแนะนำให้ Pareto / NBD ที่นี่หรือที่คล้ายกัน โดยทั่วไปคุณถือว่าการซื้อ - ในขณะที่พวกเขากำลังซื้อ - ตามการกระจายทวินามลบ แต่คุณต้องจำลองเวลาที่ลูกค้าหยุด นั่นคือส่วนอื่น ๆ

Pete Fader และ Bruce Hardie มีเอกสารเกี่ยวกับเรื่องนี้พร้อมด้วย Abe

มีหลายวิธีที่ง่ายกว่าในการ Pareto / NBD แม้เพียงแค่นับเอกสารต่างๆของ Fader และ Hardie อย่าใช้วิธีที่ง่ายกว่าซึ่งคาดว่าความน่าจะเป็นของการหยุดจะคงที่ในแต่ละช่วงเวลานั่นหมายความว่าลูกค้าที่หนักกว่าของคุณมีแนวโน้มที่จะเลิกใช้เร็วกว่า มันเป็นรุ่นที่ง่ายกว่าที่จะเข้ากันได้ แต่ผิด

ฉันไม่ได้พอดีกับสิ่งเหล่านี้ในขณะที่; ขอโทษที่ไม่ได้เชิญมา

นี่คือการอ้างอิงถึงเอกสาร Abe ซึ่งแก้ไขปัญหานี้ในฐานะเบย์แบบลำดับชั้น . ถ้าฉันทำงานในพื้นที่นี้อีกครั้งฉันคิดว่าฉันจะทดสอบวิธีนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.