เส้นโค้ง ROC บอกอะไรคุณว่าการอนุมานแบบดั้งเดิมจะไม่เกิดขึ้น?


12

เมื่อใดที่คุณจะใช้ ROC curves ผ่านการทดสอบอื่น ๆ เพื่อกำหนดความสามารถในการทำนายของการวัดในผลลัพธ์

เมื่อจัดการกับผลลัพธ์ที่ไม่ต่อเนื่อง (ชีวิต / ตายปัจจุบัน / ขาดหายไป) อะไรที่ทำให้ ROC โค้งพลังมากขึ้นหรือน้อยลงกว่าบางอย่างเช่นไคสแควร์


ROC curve คืออะไร? คุณช่วยระบุลิงก์ได้ไหม

คำตอบ:


12

ฟังก์ชัน ROC (ไม่จำเป็นต้องเป็นเส้นโค้ง) ช่วยให้คุณสามารถประเมินความสามารถในการเลือกปฏิบัติที่จัดทำโดยแบบจำลองทางสถิติเฉพาะ aa (ประกอบด้วยตัวแปรตัวทำนายหรือชุดของพวกเขา)

ข้อพิจารณาหลักของ ROCs คือการทำนายแบบจำลองไม่เพียง แต่เกิดจากความสามารถของแบบจำลองในการแยกแยะ / ทำการคาดการณ์บนพื้นฐานของหลักฐานที่จัดทำโดยตัวแปรตัวทำนาย การปฏิบัติการเป็นเกณฑ์การตอบสนองที่กำหนดว่าจำเป็นต้องมีหลักฐานจำนวนเท่าใดสำหรับแบบจำลองเพื่อทำนายการตอบสนองและผลลัพธ์ของการตอบสนองเหล่านี้คืออะไร ค่าที่กำหนดขึ้นสำหรับเกณฑ์การตอบสนองจะมีอิทธิพลอย่างมากต่อการทำนายแบบจำลองและในที่สุดประเภทของข้อผิดพลาดที่จะทำ

พิจารณาโมเดลทั่วไปพร้อมตัวแปรตัวทำนายและเกณฑ์การตอบกลับ แบบจำลองนี้พยายามทำนายการแสดงตนของ X โดยตอบสนองใช่หรือไม่ใช่ดังนั้นคุณจึงมีเมทริกซ์ความสับสนดังต่อไปนี้:

                                **X present               X absent**
 **Model Predicts X Present**       Hit                   False Alarm

 **Model Predicts X Absent**      Miss                 Correct Rejection

ในเมทริกซ์นี้คุณเพียงแค่ต้องพิจารณาสัดส่วนของจำนวนการเข้าดูและการเตือนที่ผิดพลาด (เพราะสิ่งอื่น ๆ สามารถได้มาจากสิ่งเหล่านี้เนื่องจากพวกเขามีต่อ 1) สำหรับเกณฑ์การตอบกลับแต่ละข้อคุณจะมีเมทริกซ์ความสับสนที่แตกต่างกัน ข้อผิดพลาด (Misses and False Alarms) มีความสัมพันธ์ในเชิงลบซึ่งหมายความว่าเกณฑ์การตอบสนองที่ลดการเตือนที่ผิดพลาดให้มากที่สุดจะช่วยให้คิดถึงได้มากที่สุดและในทางกลับกัน ข้อความคือ: ไม่มีอาหารกลางวันฟรี

ดังนั้นเพื่อที่จะเข้าใจว่าโมเดลนั้นแยกแยะกรณีและทำการคาดการณ์ได้ดีเพียงใดโดยขึ้นอยู่กับเกณฑ์การตอบสนองที่กำหนดไว้คุณทำการพล็อตอัตราการเข้าชมและการปลอมที่สร้างขึ้นในช่วงของเกณฑ์การตอบสนองที่เป็นไปได้

สิ่งที่คุณได้จากพล็อตนี้คือฟังก์ชั่น ROC พื้นที่ภายใต้ฟังก์ชั่นให้การวัดแบบไม่เอนเอียงและไม่อิงพารามิเตอร์ของความสามารถในการเลือกปฏิบัติของโมเดล มาตรการนี้สำคัญมากเพราะปราศจากข้อ จำกัด ใด ๆ ที่อาจเกิดขึ้นจากเกณฑ์การตอบกลับ

สิ่งสำคัญที่สองคือการวิเคราะห์ฟังก์ชั่นหนึ่งสามารถกำหนดเกณฑ์การตอบสนองที่ดีกว่าสำหรับวัตถุประสงค์ของคุณ ข้อผิดพลาดประเภทใดที่คุณต้องการหลีกเลี่ยงและข้อผิดพลาดประเภทใดที่ใช้ได้ ตัวอย่างเช่นพิจารณาการทดสอบเอชไอวี: เป็นการทดสอบที่ค้นหาหลักฐานบางอย่าง (ในกรณีนี้แอนติบอดี) และทำการวินิจฉัย / การทำนายบนพื้นฐานของการเปรียบเทียบหลักฐานกับเกณฑ์การตอบสนอง เกณฑ์การตอบสนองนี้มักจะตั้งค่าต่ำมากดังนั้นคุณจึงย่อคิดถึง แน่นอนว่าสิ่งนี้จะส่งผลให้เกิด False Alarm มากขึ้นซึ่งมีค่าใช้จ่าย แต่เป็นค่าใช้จ่ายเล็กน้อยเมื่อเปรียบเทียบกับ Misses

ด้วย ROCs คุณสามารถประเมินความสามารถในการเลือกปฏิบัติของแบบจำลองโดยไม่ขึ้นอยู่กับเกณฑ์การตอบสนองและสร้างเกณฑ์การตอบสนองที่ดีที่สุดตามความต้องการและข้อ จำกัด ของสิ่งที่คุณกำลังวัด การทดสอบอย่าง Hi-Square ไม่สามารถช่วยได้ในเรื่องนี้เพราะถึงแม้ว่าการทดสอบของคุณหากการคาดการณ์อยู่ในระดับโอกาสคู่การแจ้งเตือน Hit-False ที่แตกต่างกันหลายคู่จะสอดคล้องกับระดับโอกาส

กรอบการทำงานบางอย่างเช่นทฤษฎีการตรวจจับสัญญาณสันนิษฐานว่ามีหลักฐานเบื้องต้นสำหรับการเลือกปฏิบัติที่มี distribuiton เฉพาะ (เช่นการแจกแจงแบบปกติหรือการแจกแจงแกมมา) เมื่อสมมติฐานเหล่านี้มีไว้ (หรือใกล้เคียงกัน) จะมีมาตรการดีๆที่ทำให้ชีวิตคุณง่ายขึ้น

หวังว่าสิ่งนี้จะช่วยอธิบายคุณเกี่ยวกับข้อดีของ ROC


1
ตอนนี้ฉันมีเวลา 7 ปีที่จะคิดและยอมรับคำตอบของคุณ
jermdemo

6

เส้นโค้ง ROC ใช้เมื่อตัวทำนายต่อเนื่องและผลลัพธ์ไม่ต่อเนื่องดังนั้นการทดสอบไคสแควร์จะไม่สามารถใช้ได้ ในความเป็นจริงการวิเคราะห์ ROC มีความหมายเทียบเท่ากับการทดสอบ Mann-Whitney: พื้นที่ใต้กราฟคือ P (X> Y) ซึ่งเป็นปริมาณที่ทดสอบโดยการทดสอบ MW อย่างไรก็ตามการวิเคราะห์ Mann-Whitney ไม่ได้เน้นที่การเลือกการตัดออกในขณะที่เป็นประเด็นหลักของการวิเคราะห์ ROC นอกจากนี้เส้นโค้ง ROC มักใช้เป็นเพียงการแสดงภาพความสามารถในการทำนายของ covariate


6

คำตอบที่สั้นที่สุดคือการทดสอบการตรวจจับสัญญาณแบบดั้งเดิมจะให้คุณเพียงจุดเดียวบน ROC (ลักษณะการทำงานของเครื่องรับ) ในขณะที่เส้นโค้งช่วยให้คุณเห็นการตอบสนองผ่านช่วงของค่าต่างๆ เป็นไปได้ว่าเกณฑ์และ d 'shift เป็นหนึ่งกะตลอดเส้นโค้ง มันเหมือนกับความแตกต่างระหว่าง t-test ที่สร้างขึ้นโดยการเลือกตัวแปรทำนายสองคลาสและสองเส้นถดถอยที่สร้างขึ้นโดยดูที่การปรับพารามิเตอร์ของตัวแปรทำนายแต่ละตัวแปร


2

ในกรณีที่คุณกำลังสนใจในการอ้างอิงเพิ่มเติมรายการที่กว้างขวางของเอกสารมีอยู่ในเว็บไซต์ KH Zou ของลักษณะการดำเนินงานรับสัญญาณ (ROC) วิจัยวรรณคดี

ส่วนโค้ง ROC ก็ถูกใช้เมื่อเราสนใจเปรียบเทียบตัวแยกประเภทที่แตกต่างกันกับการใช้งานที่กว้างขวางในการวิจัยทางชีวการแพทย์และชีวสารสนเทศศาสตร์


1

ในหลายวิธี ROCs เป็นเครื่องมือเบี่ยงเบนจากการอนุมานหลักและเครื่องมือการประมาณค่าสำหรับแบบจำลอง ฉันไม่เห็นคุณค่ามากนัก


โปรดอธิบายอย่างละเอียดหากคุณมีโอกาส! ฉันคิดว่าฉันมีความคิดทั่วไปเกี่ยวกับการโต้แย้งของคุณจากงานเขียนอื่น ๆ และมันจะเป็นการเพิ่มคุณค่าที่นี่มาก
Matt Parker

1
R2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.