เครื่องสามารถใช้โมเดลการเรียนรู้ของเครื่อง (GBM, NN และอื่น ๆ ) สำหรับการวิเคราะห์การอยู่รอดได้อย่างไร


13

ฉันรู้ว่าแบบจำลองทางสถิติแบบดั้งเดิมเช่น Cox Proportional Hazards Regression & แบบจำลอง Kaplan-Meier บางอย่างสามารถใช้ในการทำนายวันจนกว่าเหตุการณ์ที่จะเกิดขึ้นต่อไปจะบอกว่าล้มเหลว ฯลฯ เช่นการวิเคราะห์การอยู่รอด

คำถาม

  1. การถดถอยของโมเดลการเรียนรู้ของเครื่องเช่น GBM, โครงข่ายใยประสาทเทียม ฯลฯ สามารถใช้ในการทำนายวันจนถึงเหตุการณ์ได้อย่างไร?
  2. ฉันเชื่อว่าการใช้วันจนกว่าจะเกิดขึ้นเป็นตัวแปรเป้าหมายและการใช้โมเดลการถดถอยจะไม่ทำงาน ทำไมมันไม่ทำงานและจะแก้ไขอย่างไร
  3. เราสามารถแปลงปัญหาการวิเคราะห์การเอาชีวิตรอดเป็นการจัดประเภทแล้วได้รับความน่าจะเป็นของการอยู่รอดได้หรือไม่? ถ้าเช่นนั้นจะสร้างตัวแปรเป้าหมายไบนารีได้อย่างไร?
  4. ข้อดีและข้อเสียของวิธีการเรียนรู้ของเครื่องเทียบกับการถดถอยอันตรายของ Cox Proportional & รุ่น Kaplan-Meier ฯลฯ คืออะไร?

ลองนึกภาพข้อมูลตัวอย่างอินพุตเป็นรูปแบบด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่

บันทึก:

  • เซ็นเซอร์ส่ง Ping ข้อมูลในช่วงเวลา 10 นาที แต่ในบางครั้งข้อมูลอาจหายไปเนื่องจากปัญหาเครือข่าย ฯลฯ ตามที่แสดงโดยแถวที่มี NA
  • var1, var2, var3 เป็นตัวทำนายตัวแปรอธิบาย
  • failure_flag บอกว่าเครื่องล้มเหลวหรือไม่
  • เรามีข้อมูล 6 เดือนล่าสุดทุก ๆ 10 นาทีสำหรับรหัสเครื่องแต่ละเครื่อง

แก้ไข:

การคาดการณ์ผลลัพธ์ที่คาดหวังควรอยู่ในรูปแบบด้านล่าง ป้อนคำอธิบายรูปภาพที่นี่

หมายเหตุ: ฉันต้องการทำนายความน่าจะเป็นที่จะเกิดความล้มเหลวสำหรับแต่ละเครื่องใน 30 วันถัดไปในระดับรายวัน


1
ฉันคิดว่ามันจะช่วยได้ถ้าคุณสามารถอธิบายได้ว่าทำไมข้อมูลนี้ถึงเป็นครั้งคราว คำตอบที่คุณต้องการสร้างแบบจำลองคืออะไร
หน้าผา AB

ฉันได้แก้ไขและเพิ่มตารางการทำนายผลลัพธ์ที่คาดหวังเพื่อให้ชัดเจน แจ้งให้เราทราบหากคุณมีคำถามเพิ่มเติม
GeorgeOfTheRF

1
มีหลายวิธีในการแปลงข้อมูลอยู่รอดไปสู่ผลลัพธ์ที่ไบนารีในบางกรณีเช่นเวลาที่ไม่ต่อเนื่องรุ่นที่อันตรายคือ: statisticalhorizons.com/wp-content/uploads/Allison.SM82.pdf วิธีการเรียนรู้ของเครื่องบางอย่างเช่นฟอเรสต์แบบสุ่มสามารถสร้างแบบจำลองเวลาไปยังข้อมูลเหตุการณ์โดยใช้สถิติอันดับของบันทึกเป็นเกณฑ์การแยก
dsaxton

@dsaxton ขอบคุณ คุณสามารถอธิบายวิธีการแปลงข้อมูลการรอดชีวิตข้างต้นเป็นผลลัพธ์ไบนารีได้หรือไม่
GeorgeOfTheRF

failure_flagหลังจากที่มีการมองใกล้ดูเหมือนว่าคุณมีผลกับไบนารี
dsaxton

คำตอบ:


6

สำหรับกรณีของเครือข่ายประสาทนี้เป็นวิธีการที่มีแนวโน้ม: WTTE-RNN - หักทำนายปั่น

สาระสำคัญของวิธีนี้คือการใช้เครือข่าย Neural กำบังเพื่อทำนายพารามิเตอร์ของการกระจาย Weibull ในแต่ละขั้นตอนและเพิ่มประสิทธิภาพเครือข่ายโดยใช้ฟังก์ชั่นการสูญเสียที่จะตรวจสอบบัญชี

ผู้เขียนยังปล่อยให้การดำเนินงานของเขาบน Github


2

ดูที่การอ้างอิงเหล่านี้:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

โปรดทราบว่าโมเดลตามความเป็นอันตรายดั้งเดิมเช่น Cox Proportional Hazards (CPH) ไม่ได้ออกแบบมาเพื่อทำนายเวลาต่อเหตุการณ์ แต่เป็นการอนุมานผลกระทบของตัวแปร (สหสัมพันธ์) เทียบกับ i) การสังเกตเหตุการณ์และด้วยเหตุนี้ ii) เส้นโค้งการอยู่รอด . ทำไม? ดูที่ MLE ของ CPH

ดังนั้นหากคุณต้องการคาดการณ์โดยตรงบางอย่างเช่น "วันที่เกิดขึ้น" CPH อาจไม่แนะนำให้ทำ รุ่นอื่น ๆ อาจตอบสนองงานของคุณได้ดีกว่าที่ระบุไว้ในข้อมูลอ้างอิงสองข้อข้างต้น


1

ดังที่ @ dsaxton กล่าวคุณสามารถสร้างรูปแบบเวลาแบบแยก คุณตั้งค่าให้ทำนาย p (ล้มเหลวในวันนี้เนื่องจากรอดชีวิตจนถึงวันก่อนหน้า) อินพุตของคุณคือวันปัจจุบัน (ในสิ่งที่คุณต้องการ) เช่นการเข้ารหัสร้อนจำนวนเต็ม .. Spline ... รวมถึงตัวแปรอิสระอื่น ๆ ที่คุณอาจต้องการ

ดังนั้นคุณสร้างแถวของข้อมูลสำหรับแต่ละตัวอย่างที่รอดชีวิตมาได้จนถึงเวลา t-1 มันจะตายในเวลา t (0/1)

ดังนั้นตอนนี้ความน่าจะเป็นที่จะมีชีวิตรอดถึงเวลา T คือผลผลิตของ p (ไม่ตายในเวลาที่กำหนดไม่ได้ตายที่ t-1) สำหรับ t = 1 ถึง T. Ie คุณทำการทำนาย T จากแบบจำลองของคุณแล้ว คูณด้วยกัน

ฉันจะบอกเหตุผลที่มันไม่ใช่ความคิดที่จะคาดการณ์เวลาที่จะล้มเหลวโดยตรงเพราะโครงสร้างที่ซ่อนอยู่ของปัญหา เช่นสิ่งที่คุณป้อนสำหรับเครื่องที่ไม่ได้ล้มเหลว โครงสร้างพื้นฐานเป็นเหตุการณ์อิสระอย่างมีประสิทธิภาพ: ล้มเหลว ณ เวลาที่กำหนดไม่ได้ล้มเหลวจนถึง t-1 เช่นถ้าคุณคิดว่ามันคงที่เส้นโค้งการอยู่รอดของคุณจะกลายเป็นเลขชี้กำลัง (ดูแบบจำลองความเป็นอันตราย)

หมายเหตุในกรณีที่คุณสามารถสร้างแบบจำลองในช่วงเวลา 10 นาทีหรือรวมปัญหาการจำแนกได้ถึงระดับวัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.