จะทำการตรวจสอบข้ามกับโมเดลอันตรายตามสัดส่วนของ Cox ได้อย่างไร

สมมติว่าฉันได้สร้างแบบจำลองการทำนายสำหรับการเกิดโรคเฉพาะในชุดข้อมูลหนึ่ง (ชุดข้อมูลการสร้างแบบจำลอง) และตอนนี้ต้องการตรวจสอบว่ารูปแบบการทำงานในชุดข้อมูลใหม่ได้ดีเพียงใด (ชุดข้อมูลการตรวจสอบความถูกต้อง) สำหรับแบบจำลองที่สร้างขึ้นด้วยการถดถอยโลจิสติกฉันจะคำนวณความน่าจะเป็นที่คาดการณ์สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบความถูกต้องตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองแล้วหลังจากแยกขั้ว ที่ช่วยให้ฉันสามารถคำนวณอัตราบวกที่แท้จริง (ความไว) และอัตราลบที่แท้จริง (ความจำเพาะ) ยิ่งกว่านั้นฉันสามารถสร้างเส้นโค้ง ROC ทั้งหมดได้โดยการปรับค่า cutoff แล้วรับ AUC สำหรับกราฟ ROC

ตอนนี้สมมติว่าฉันมีข้อมูลการอยู่รอด ดังนั้นฉันใช้โมเดลอันตรายตามสัดส่วนของ Cox ในชุดข้อมูลการสร้างแบบจำลองและตอนนี้ต้องการตรวจสอบว่าแบบจำลองนั้นทำงานได้ดีเพียงใดในชุดข้อมูลการตรวจสอบความถูกต้อง เนื่องจากความเสี่ยงพื้นฐานไม่ใช่ฟังก์ชันพารามิเตอร์ในโมเดล Cox ฉันไม่เห็นว่าฉันจะได้รับโอกาสรอดชีวิตที่คาดการณ์ไว้สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองอย่างไร ดังนั้นฉันจะไปเกี่ยวกับการตรวจสอบว่าแบบจำลองทำงานได้ดีในชุดข้อมูลการตรวจสอบได้อย่างไร มีวิธีการที่กำหนดไว้สำหรับการทำเช่นนี้หรือไม่? และถ้าใช่จะมีการใช้งานในซอฟต์แวร์ใด ๆ หรือไม่? ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ !

— โวล์ฟกัง
แหล่งที่มา

คำตอบ:

เส้นโค้ง ROC ไม่มีประโยชน์ในการตั้งค่านี้แม้ว่าพื้นที่ ROC ทั่วไป (ดัชนี c ซึ่งไม่ต้องการการแบ่งขั้วใด ๆ เลย) คือ rmsแพคเกจR จะคำนวณ c-index และ cross-validated หรือ bootstrap เวอร์ชันที่แก้ไขมากเกินไปของมัน คุณสามารถทำสิ่งนี้ได้โดยไม่ต้องเก็บข้อมูลใด ๆ ไว้หากคุณระบุรุ่นไว้ล่วงหน้าอย่างสมบูรณ์หรือทำซ้ำอัลกอริทึมการลดขั้นตอนด้านหลังในแต่ละตัวอย่าง ถ้าคุณต้องการอย่างแท้จริงที่จะทำการตรวจสอบภายนอกเช่นถ้าตัวอย่างการตรวจสอบของคุณเป็นอย่างมากที่คุณสามารถใช้ต่อไปนี้rmsฟังก์ชั่น: ,rcorr.censval.surv

— Frank Harrell
แหล่งที่มา

ขอบคุณสำหรับคำตอบ คุณช่วยอธิบายได้ไหมว่าทำไม ROC curve ไม่เป็นประโยชน์ในการตั้งค่านี้ ฉันได้เห็นแอปพลิเคชั่นที่โดดเด่นซึ่งใช้วิธีการดังกล่าว (เช่น Hippisley-Cox และคณะ (2007) การได้รับและตรวจสอบ QRISK ซึ่งเป็นคะแนนความเสี่ยงโรคหัวใจและหลอดเลือดใหม่สำหรับสหราชอาณาจักร: การศึกษาแบบเปิดในอนาคต , 335 (7611): 136) ดังนั้นตอนนี้ฉันสงสัยเกี่ยวกับวิธีการของพวกเขา

— Wolfgang

นี่เป็นการเปรียบเทียบ สมมติว่ามีความสนใจในการประเมินว่าอายุเกี่ยวข้องกับความสามารถในการทำงาน วิธีการของ ROC จะถามคำถามเพราะความสามารถในการวิ่งของใครบางคนความน่าจะเป็นที่พวกเขาอายุเกินเกณฑ์ (โดยพลการ) คืออะไร? ในการศึกษาแบบหมู่คณะจะเพิ่มความสับสนในการย้อนกลับบทบาทของตัวแปรอิสระและตัวแปรตามและเส้นโค้ง ROC ยังล่อลวงให้มีการตัดการทำนายซึ่งเป็นที่รู้กันว่าเป็นการฝึกฝนเชิงสถิติที่ไม่ดี - ดูbiostat.mc.vanderbilt.edu/ CatContinuous นอกจากสร้าง havock แล้วจุดตัดต้องเป็นหน้าที่ของตัวทำนายอื่น ๆ ทั้งหมด

— Frank Harrell

ขอบคุณอีกครั้งสำหรับการตอบกลับ ฉันไม่เชื่ออย่างสมบูรณ์ว่า ฉันเห็นด้วยอย่างยิ่งว่าการจัดหมวดหมู่ของตัวแปรอย่างต่อเนื่องเป็นการปฏิบัติที่ไม่ดี แต่วิธีการของ ROC จัดหมวดหมู่ในการตัดทอนที่เป็นไปได้ทั้งหมดและสรุปข้อมูลนั้นผ่าน AUC ดังนั้นจึงไม่มีความเด็ดขาดในเรื่องนั้น นอกจากนี้ยังดูเหมือนว่าเป็นมาตรฐานและเป็นที่ยอมรับในการฝึกแบบจำลองการถดถอยโลจิสติก ดังนั้นคุณจะต่อต้านการใช้เส้นโค้ง ROC โดยทั่วไปหรือเพียงแค่ในบริบทของแบบจำลองการเอาตัวรอดหรือไม่?

— Wolfgang

X = x

$X=x$

X > c

$X>c$

ประสบการณ์ของฉันบอกฉันว่านักวิจัย / ผู้ปฏิบัติงานจำนวนมากต้องการกฎการตัดสินใจแบบแยกส่วน (จริง ๆ แล้วไม่จำเป็นว่าเป็นประโยชน์หรือไม่ ฉันจะติดตามฟังก์ชั่น R เหล่านั้นบ้างและดูว่าสิ่งนี้ทำให้ฉันได้รับที่ใด ขอบคุณสำหรับการสนทนา

— Wolfgang

ฉันรู้ว่าคำถามนี้ค่อนข้างเก่า แต่สิ่งที่ฉันทำเมื่อฉันพบปัญหาเดียวกันคือใช้ฟังก์ชันทำนายเพื่อให้ได้คะแนน "" สำหรับแต่ละวิชาในชุดการตรวจสอบความถูกต้อง ตามด้วยการแยกอาสาสมัครตามว่าคะแนนสูงกว่าหรือต่ำกว่าค่ามัธยฐานและวางแผนเส้นโค้ง Kaplan-Meier สิ่งนี้ควรแสดงการแยกของตัวแบบถ้าแบบจำลองของคุณทำนายได้ ฉันยังทดสอบความสัมพันธ์ของคะแนน (อันที่จริงคือ ln [สำหรับการแจกแจงแบบปกติ]) กับการเอาตัวรอดโดยใช้ฟังก์ชัน coxph จากแพ็คเกจการเอาตัวรอดในอาร์

— PMA
แหล่งที่มา