ในการวิเคราะห์ความอยู่รอดทำไมเราถึงใช้โมเดลกึ่งพารามิเตอร์ (Cox ที่เป็นอันตรายตามสัดส่วน) แทนที่จะเป็นโมเดลพาราเมตริกแบบเต็ม?


24

ฉันได้ศึกษาโมเดลอันตรายของ Cox Proportional แล้วและคำถามนี้ได้ถูกคัดสรรมาเป็นส่วนใหญ่

Cox เสนอการปรับค่าสัมประสิทธิ์ของฟังก์ชั่น Hazard โดยใช้วิธีความน่าจะเป็นบางส่วน แต่ทำไมไม่เพียงแค่ปรับสัมประสิทธิ์ของฟังก์ชั่น Parametric Survival โดยใช้วิธีโอกาสสูงสุดและแบบจำลองเชิงเส้น?

ในกรณีใด ๆ ที่คุณมีข้อมูลเซ็นเซอร์คุณสามารถหาพื้นที่ใต้เส้นโค้ง ตัวอย่างเช่นหากค่าประมาณของคุณคือ 380 โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 80 และตัวอย่างถูกเซ็นเซอร์> 300 ดังนั้นความน่าจะเป็น 84% สำหรับตัวอย่างนั้นในการคำนวณความน่าจะเป็นเป็นข้อผิดพลาดปกติ


เท่าที่ฉันต้องการมีคำถามวิทยาศาสตร์คณิตศาสตร์ประกันภัยที่นี่ฉันต้องบอกว่าคำถามนี้อาจจะได้รับการตอบสนองที่ดีขึ้นในเว็บไซต์สถิติ Cross Validated คุณสามารถขอให้ผู้ดูแลทำการโยกย้ายได้
กราฟ

เอาล่ะไม่ทราบว่ามีอยู่จริง ไม่แน่ใจว่าจะขอการโยกย้ายได้อย่างไร โปรดย้ายข้อมูลหรือไม่

@Graphth ฉันยังไม่ทราบว่ามีอยู่ ... ฉันไม่พบในรายการ "ไซต์ทั้งหมด" คุณสามารถลิงก์ไปที่นี่ได้หรือไม่ ขอบคุณ

คำตอบ:


27

หากคุณรู้ว่าการแจกแจงตัวแปรที่ข้อมูลของคุณติดตามนั้นใช้วิธีการความน่าจะเป็นสูงสุดและการแจกแจงที่สมเหตุสมผล ข้อได้เปรียบที่แท้จริงของ Cox Proportional Hazards Regression คือคุณยังสามารถปรับโมเดลการเอาชีวิตรอดได้โดยไม่ต้องรู้ว่ามีการกระจาย คุณยกตัวอย่างโดยใช้การแจกแจงแบบปกติ แต่เวลาการเอาชีวิตรอดส่วนใหญ่ (และข้อมูลประเภทอื่น ๆ ที่ใช้การถดถอยแบบ Cox PH) ไม่ใกล้เคียงกับการแจกแจงแบบปกติ บางคนอาจปฏิบัติตามบันทึกปกติหรือ Weibull หรือการแจกแจงพาราเมตริกอื่น ๆ และหากคุณยินดีที่จะตั้งสมมติฐานนั้นวิธีการหาค่าพารามิเตอร์โอกาสสูงสุดนั้นดีมาก แต่ในโลกแห่งความเป็นจริงหลายกรณีเราไม่ทราบว่าการกระจายที่เหมาะสมคืออะไร (หรือแม้แต่การประมาณที่ใกล้พอ) ด้วยการเซ็นเซอร์และ covariates เราไม่สามารถทำฮิสโตแกรมที่เรียบง่ายและพูดว่า "ที่ดูเหมือน ... การกระจายให้ฉัน" มันมีประโยชน์มากที่จะมีเทคนิคที่ทำงานได้ดีโดยไม่จำเป็นต้องมีการแจกแจงแบบเฉพาะเจาะจง

เหตุใดจึงใช้อันตรายแทนฟังก์ชั่นการกระจาย พิจารณาข้อความต่อไปนี้: "คนในกลุ่ม A มีโอกาสตายสองคนที่อายุ 80 ปีเป็นสองเท่าในกลุ่ม B" ตอนนี้อาจเป็นจริงเพราะคนในกลุ่ม B มีแนวโน้มที่จะมีชีวิตยืนยาวกว่าในกลุ่ม A หรืออาจเป็นเพราะคนในกลุ่ม B มักจะมีชีวิตที่สั้นกว่าและคนส่วนใหญ่เสียชีวิตก่อนอายุ 80 ทำให้มีโอกาสน้อยมาก ของพวกเขากำลังจะตายที่ 80 ในขณะที่ผู้คนในกลุ่ม A มีชีวิตอยู่ถึง 80 คนซึ่งจำนวนที่ยุติธรรมของพวกเขาจะตายเมื่ออายุนั้นทำให้มีโอกาสสูงที่จะตายในยุคนั้น ดังนั้นคำพูดเดียวกันอาจหมายถึงการอยู่ในกลุ่ม A นั้นดีกว่าหรือแย่กว่าการอยู่ในกลุ่ม B สิ่งที่สมเหตุสมผลกว่าคือการพูดถึงคนเหล่านั้น (ในแต่ละกลุ่ม) ที่มีชีวิตอยู่ถึง 80 สัดส่วนที่จะตายก่อนอายุ 81 นั่นคืออันตราย (และอันตรายคือฟังก์ชั่นของฟังก์ชั่นการกระจาย / ฟังก์ชั่นการอยู่รอด / ฯลฯ ) อันตรายนั้นง่ายต่อการใช้งานในโมเดลกึ่งพารามิเตอร์และจากนั้นสามารถให้ข้อมูลเกี่ยวกับการกระจาย


7
คำตอบที่ดี สิ่งที่ไม่ซ้ำกันเกี่ยวกับเวลาคือเวลาผ่านไปในทิศทางเดียวและเมื่อเราทนต่อช่วงเวลาที่มีความเสี่ยงสูงเราจะสนใจความเสี่ยงเป็นหลัก นั่นคือสิ่งที่ฟังก์ชั่นอันตรายบอกเรา
Frank Harrell

2
อีกจุดหนึ่งที่ควรค่าแก่การเพิ่มคือด้วยข้อมูลที่ถูกเซ็นเซอร์การตรวจสอบสมมติฐานการกระจายอาจเป็นเรื่องยากมาก ตัวอย่างเช่นสมมติว่า 20% ของอาสาสมัครสังเกตเหตุการณ์ พยายามที่จะตรวจสอบว่าหางของการกระจายตามการกระจาย Weibull ชัดเจนไม่เป็นไปได้! แบบจำลอง Cox-PH ค่อนข้างก้าวล้ำปัญหา (แต่คุณต้องระวังอันตรายที่ได้สัดส่วนถ้าคุณต้องการคาดการณ์ในพื้นที่ที่มีการตรวจสอบครั้งใหญ่)
หน้าผา AB

16

"เรา" ไม่จำเป็น เครื่องมือการวิเคราะห์การเอาชีวิตรอดอยู่ในช่วงตั้งแต่แบบไม่มีพารามิเตอร์อย่างเช่นวิธี Kaplan-Meier ไปจนถึงแบบจำลองพารามิเตอร์แบบเต็มซึ่งคุณระบุการกระจายของอันตรายพื้นฐาน แต่ละคนมีข้อดีและข้อเสีย

วิธีกึ่งพารามิเตอร์เช่นแบบจำลองสัดส่วนอันตรายค็อกทำให้คุณสามารถออกไปโดยไม่ระบุฟังก์ชันอันตรายพื้นฐาน ซึ่งจะเป็นประโยชน์ในขณะที่เราไม่เคยรู้ว่าฟังก์ชั่นพื้นฐานอันตรายและในหลายกรณียังไม่สนใจ ตัวอย่างเช่นการศึกษาระบาดวิทยาจำนวนมากต้องการทราบว่า "การเปิดรับ X ลดระยะเวลาจนถึงเหตุการณ์ Y หรือไม่" สิ่งที่พวกเขาสนใจคือความแตกต่างของผู้ป่วยที่มี X และผู้ที่ไม่มี X ในกรณีนี้อันตรายที่แฝงอยู่ไม่สำคัญและความเสี่ยงของการสะกดผิดจะแย่กว่าผลที่ตามมาจากการไม่รู้

มีหลายครั้งที่สิ่งนี้ไม่เป็นความจริง ฉันทำงานกับแบบจำลองพารามิเตอร์อย่างเต็มที่เพราะอันตรายที่เป็นที่สนใจ


1
"... และความเสี่ยงในการผิดพลาดเป็นสิ่งที่เลวร้ายยิ่งกว่าผลที่ตามมาจากการไม่รู้" สิ่งนี้มีประโยชน์มากขอบคุณ

คุณสามารถยกตัวอย่างอันตรายที่แฝงอยู่ในนั้นจะสนใจเมื่อใด
Dan Chaltiel

1
@DanChaltiel การประมาณการใด ๆ ที่ตั้งใจจะเข้าสู่แบบจำลองทางคณิตศาสตร์หรือสิ่งที่คล้ายกันนั้นจะเป็นตัวอย่าง - ฟังก์ชันความเป็นอันตรายพื้นฐานที่มีความสนใจเป็นพิเศษ
Fomite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.