การปรับ covariates ในการวิเคราะห์เส้นโค้ง ROC


20

คำถามนี้เกี่ยวกับการประเมินคะแนนแบบตัดในแบบสอบถามแบบคัดกรองหลายมิติเพื่อทำนายจุดสิ้นสุดแบบไบนารี่

ฉันถูกถามเกี่ยวกับความสนใจในการควบคุมคะแนนย่อยที่เกี่ยวข้องเมื่อคิดคะแนนการตัดในแต่ละมิติของมาตราส่วนการวัด (ลักษณะบุคลิกภาพ) ซึ่งอาจใช้ในการคัดกรองโรคพิษสุราเรื้อรัง นั่นคือในกรณีนี้บุคคลไม่สนใจที่จะปรับค่า covariates ภายนอก (ตัวทำนาย) - ซึ่งนำไปสู่พื้นที่ (บางส่วน) ภายใต้เส้นโค้ง ROC ที่ปรับค่า covariate เช่น (1-2) - แต่เป็นคะแนนอื่น ๆ จากแบบสอบถามเดียวกันเพราะมีความสัมพันธ์ซึ่งกันและกัน (เช่น "ความกระตุ้น" กับ "การแสวงหาความรู้สึก") มันเป็นจำนวนที่จะสร้าง GLM ซึ่งรวมถึงคะแนนความสนใจทางด้านซ้าย (ซึ่งเราต้องการให้ถูกตัดออก) และอีกคะแนนที่คำนวณจากแบบสอบถามเดียวกันในขณะที่ด้านขวาผลลัพธ์อาจเป็นสถานะการดื่ม

หากต้องการชี้แจง (ตามคำขอ @robin) สมมติว่าเรามีคะแนนพูดว่า (เช่นความวิตกกังวลความกระวนกระวายการเป็นโรคประสาทการค้นหาความรู้สึก) และเราต้องการหาค่าที่ตัดออก (เช่น "กรณีบวก" หาก "กรณีลบ" มิฉะนั้น) สำหรับแต่ละรายการ เรามักจะปรับตัวสำหรับปัจจัยเสี่ยงอื่น ๆ เช่นเพศหรืออายุเมื่อคิดการตัด (ใช้การวิเคราะห์เส้นโค้ง ROC) ตอนนี้สิ่งที่เกี่ยวกับการปรับแรงกระตุ้น (IMP) เกี่ยวกับเพศอายุและการแสวงหาความรู้สึก (SS) ตั้งแต่ SS เป็นที่รู้จักกันที่จะสัมพันธ์กับ IMP? กล่าวอีกนัยหนึ่งเราจะมีค่าตัดสำหรับ IMP ที่ผลกระทบของอายุเพศและระดับความวิตกกังวลจะถูกลบออกJ=4xJเสื้อJxJ>เสื้อJ

นอกเหนือจากการบอกว่าการตัดออกจะต้องเรียบง่ายที่สุดเท่าที่จะทำได้คำตอบของฉันคือ

เกี่ยวกับ covariates ฉันขอแนะนำให้ประเมิน AUC ทั้งที่มีและไม่มีการปรับเพื่อดูว่าประสิทธิภาพการทำนายเพิ่มขึ้นหรือไม่ ที่นี่โควาเรียตของคุณเป็นเพียงคะแนนย่อยอื่น ๆ ที่กำหนดจากเครื่องมือวัดเดียวกันและฉันไม่เคยประสบกับสถานการณ์เช่นนี้ (โดยปกติฉันจะปรับตัวตามปัจจัยเสี่ยงที่ทราบเช่นอายุหรือเพศ) [... ] นอกจากนี้เนื่องจากคุณมีความสนใจในปัญหาการพยากรณ์โรค (เช่นการคัดกรองประสิทธิภาพของแบบสอบถาม) คุณอาจสนใจประเมินค่าการทำนายเชิงบวก (PPV ความน่าจะเป็นของผู้ป่วยที่มีผลการทดสอบเชิงบวกที่จำแนกอย่างถูกต้อง) คุณสามารถจัดประเภทวิชาเป็น "บวก" หรือ "ลบ" ขึ้นอยู่กับคะแนนย่อยในแบบสอบถามของคุณ อย่างไรก็ตามหมายเหตุ

คุณมีความเข้าใจอย่างละเอียดมากขึ้นเกี่ยวกับสถานการณ์เฉพาะนี้พร้อมลิงก์ไปยังเอกสารที่เกี่ยวข้องเมื่อเป็นไปได้หรือไม่?

อ้างอิง

  1. Janes, H และ Pepe, MS (2008) ปรับค่าตัวแปรในการศึกษาวิเคราะห์การคัดกรองหรือการพยากรณ์โรคเครื่องหมาย: แนวคิดเก่าในการตั้งค่าใหม่ วารสารระบาดวิทยาอเมริกัน , 168 (1): 89-97
  2. Janes, H และ Pepe, MS (2008) รองรับตัวแปรในการวิเคราะห์ ROC ซีรี่ส์กระดาษทำงานชีวสถิติ UW , กระดาษ 322

ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ฉันพบว่าประโยค "การควบคุมคะแนนย่อยที่เกี่ยวข้องเมื่อคิดคะแนนตัดในแต่ละมิติของมาตรวัด" เป็นความลับเล็กน้อย คุณสามารถให้คำอธิบายเพิ่มเติมอีกหนึ่งบรรทัด (ไม่เช่นนั้นฉันคิดว่าเป็นการยากที่จะเข้าใจคำถาม)
robin girard

J=4เสื้อJxJ>เสื้อJ

หากเป้าหมายสุดท้ายคือการคาดการณ์ค่าไบนารีที่กำหนด [คำตอบที่เกี่ยวข้อง] สำหรับคำถามในการสำรวจสิ่งนี้ฟังดูคล้ายกับปัญหาการจำแนกเลขฐานสองมาตรฐาน มันจะเหมาะสมที่จะคิดด้วยวิธีนี้ หรือมันสำคัญมากที่จะต้องมี "ค่า cutoff" (ซึ่งฉันไม่รู้อะไรเลย)
DavidR

@DavidR ความคิดคือการตัดสินใจว่าจะตัดค่า (อ่าน "เรื่องที่มีความเสี่ยงสูงกว่าค่าที่กำหนด") ซึ่งมาพร้อมกับคำเตือนจำนวนมากจากมุมมองทางสถิติ แต่แพทย์ส่วนใหญ่คุ้นเคยหรือชอบที่จะทำงาน ทางนี้. (ขออภัยที่ไม่ได้สังเกตเห็นความคิดเห็นของคุณก่อนหน้านี้!)
chl

คำตอบ:


7

วิธีที่คุณคาดการณ์การวิเคราะห์ไม่ใช่วิธีที่ฉันอยากจะแนะนำให้คุณเริ่มคิดเกี่ยวกับมัน ก่อนอื่นมันเป็นเรื่องง่ายที่จะแสดงให้เห็นว่าถ้าจะต้องใช้การตัดจะไม่ใช้การตัดในลักษณะเฉพาะ แต่ขึ้นกับความน่าจะเป็นโดยรวมที่คาดการณ์ไว้ ทางลัดที่ดีที่สุดสำหรับ covariate เดียวนั้นขึ้นอยู่กับทุกระดับของ covariates อื่น ๆ มันไม่สามารถคงที่ได้ ประการที่สองเส้นโค้ง ROC ไม่มีบทบาทในการบรรลุเป้าหมายของการตัดสินใจที่เหมาะสมสำหรับแต่ละเรื่อง

เพื่อจัดการกับเครื่องชั่งที่เกี่ยวข้องมีเทคนิคการลดข้อมูลจำนวนมากที่สามารถช่วยได้ หนึ่งในนั้นคือการวิเคราะห์ความซ้ำซ้อนอย่างเป็นทางการโดยที่ตัวทำนายแต่ละตัวนั้นจะถูกทำนายแบบไม่เชิงเส้นจากตัวทำนายอื่น ๆ ทั้งหมด สิ่งนี้ถูกนำไปใช้ในredunฟังก์ชั่นในHmiscแพ็คเกจR การจัดกลุ่มตัวแปรการวิเคราะห์องค์ประกอบหลักและการวิเคราะห์ปัจจัยเป็นไปได้อื่น ๆ แต่ส่วนหลักของการวิเคราะห์ในมุมมองของฉันควรจะสร้างแบบจำลองความน่าจะเป็นที่ดี (เช่นแบบจำลองลอจิสติกไบนารี)


1
+1 สำหรับความแตกต่างที่สำคัญเกี่ยวกับการตัดสินใจของแต่ละบุคคลและกลุ่ม ฉันควรจะได้คาดว่าจะตอบสนองของคุณได้รับการตอบของคุณที่นี่หรือตอบสนองของคุณในอีกmedstatsทางรายการ ฉันยังพบว่าการพูดคุยของคุณเกี่ยวกับมาตรการโดยตรงของยูทิลิตี้การวินิจฉัยตามแบบจำลองความเสี่ยงการวินิจฉัยโดยเฉพาะอย่างยิ่งการตรัสรู้ในส่วนนี้
chl

พูดคุยเกี่ยวกับมาตรการทางตรงของการวินิจฉัยยูทิลิตี้ตามรูปแบบการวิเคราะห์ความเสี่ยงในขณะนี้สามารถพบได้ที่นี่kc.vanderbilt.edu/quant/Seminar/HarrellPresentMay12.pdf
Epifunky

3

จุดของ Janes, บทความ Pepe เกี่ยวกับเส้นโค้ง ROC ที่ปรับค่า covariate นั้นจะช่วยให้การตีความค่าโค้ง ROC มีความยืดหยุ่นมากขึ้น นี่เป็นวิธีการแบ่งชั้น ROC สำหรับกลุ่มเฉพาะในประชากรที่น่าสนใจ ส่วนที่เป็นบวกประมาณจริง (TPF; eq. ความไว) และส่วนที่เป็นลบที่แท้จริง (TNF; eq. จำเพาะ) ถูกตีความว่าเป็น "ความน่าจะเป็นของผลการตรวจคัดกรองที่ถูกต้องเนื่องจากสถานะของโรคคือ Y / N ในบุคคลเดียวกัน รายการ]". ดูเหมือนว่าสิ่งที่คุณพยายามทำคือปรับปรุงการทดสอบการวินิจฉัยของคุณโดยการรวมเครื่องหมายในแผงควบคุมของคุณ

พื้นฐานที่ดีในการทำความเข้าใจวิธีการเหล่านี้ดีขึ้นเล็กน้อยคือการอ่านเกี่ยวกับรูปแบบอันตรายตามสัดส่วนของ Cox และดูหนังสือของ Pepe ในหัวข้อ "การประเมินทางสถิติของการทดสอบทางการแพทย์เพื่อการจำแนกและ ... " คุณจะสังเกตเห็นว่ามาตรการตรวจสอบความน่าเชื่อถือจะแบ่งปันคุณสมบัติที่คล้ายกันมากมายกับเส้นโค้งการอยู่รอดโดยคำนึงถึงคะแนนความพอดีในการเอาชีวิตรอด เช่นเดียวกับโมเดล Cox ที่อนุญาตให้แบ่งชั้นของเส้นโค้งการอยู่รอดพวกเขาเสนอให้มีมาตรการความน่าเชื่อถือแบบแบ่งชั้น

เหตุผลที่สำคัญสำหรับเราอาจได้รับการพิสูจน์ในบริบทของรูปแบบเอฟเฟ็กต์แบบผสมไบนารี: สมมติว่าคุณสนใจที่จะทำนายความเสี่ยงของการติดยาเสพติด SES มีผลกระทบที่ชัดเจนเช่นนี้ซึ่งดูเหมือนว่าโง่มากที่จะประเมินผลการตรวจวินิจฉัยซึ่งอาจขึ้นอยู่กับพฤติกรรมส่วนบุคคลโดยไม่ต้องแบ่งชั้น นี่เป็นเพราะ [แค่กลิ้งกับสิ่งนี้] แม้ว่าคนรวยจะแสดงอาการคลั่งไคล้และซึมเศร้าพวกเขาอาจจะไม่ลองปรุงยา อย่างไรก็ตามคนจนจะแสดงความเสี่ยงที่เพิ่มขึ้นอย่างมากที่มีอาการทางจิตวิทยาดังกล่าว (และคะแนนความเสี่ยงที่สูงขึ้น) การวิเคราะห์ความเสี่ยงอย่างหยาบจะแสดงประสิทธิภาพที่ต่ำมากของแบบจำลองการทำนายของคุณเพราะความแตกต่างเดียวกันในสองกลุ่มนั้นไม่น่าเชื่อถือ อย่างไรก็ตามถ้าคุณแบ่งชั้น (รวยกับคนจน)

ประเด็นของการปรับค่าความแปรปรวนร่วมคือพิจารณากลุ่มต่าง ๆ ที่เป็นเนื้อเดียวกันเนื่องจากความชุกและการมีปฏิสัมพันธ์กันในแบบจำลองความเสี่ยงระหว่างชั้นที่แตกต่างกัน


(+1) นั่นเป็นคำตอบที่น่าสนใจขอบคุณมาก ข้อกังวลหลักของฉันในขณะที่เขียนนี้คือค่า cutoff จะค่อนข้าง "พึ่งพาซึ่งกันและกัน" แต่ฉันจะตรวจสอบหนังสือของ Pepe (พบเอกสารประกอบคำบรรยายบางส่วนที่นี่ในเวลาเดียวกัน)
chl

มีปัญหากับการใช้ข้อมูลเดียวกันในการพัฒนาและประเมินผลการทดสอบทางการแพทย์ แต่การแก้ไขเป็นเรื่องง่าย คุณควรพิจารณาการตรวจสอบความถูกต้องข้ามประเภทหรือแบ่งข้อมูลออกเป็นส่วนย่อย "การฝึกอบรม" และ "การตรวจสอบความถูกต้อง" นี่เป็นวิธีที่ถูกต้องในการพัฒนาแบบจำลองการวินิจฉัย / พยากรณ์โรค / การทำนายความเสี่ยง
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.