วิธีการตีความโค้ง ROC?


14

ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก

ป้อนคำอธิบายรูปภาพที่นี่

ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

คำตอบ:


22

10110ในกรณีส่วนใหญ่คุณจะทำผิดพลาดเพราะโดยปกติแล้วทั้งสองกลุ่มจะไม่สามารถแยกแยะได้อย่างสมบูรณ์ สำหรับเกณฑ์นี้คุณสามารถคำนวณข้อผิดพลาดของคุณและความไวที่เรียกว่าและความเฉพาะเจาะจง หากคุณทำสิ่งนี้สำหรับขีด จำกัด หลาย ๆ ตัวคุณสามารถสร้างเส้นโค้ง ROC โดยการวางแผนความไวต่อ 1-Specificity สำหรับขีด จำกัด ที่เป็นไปได้มากมาย พื้นที่ใต้เส้นโค้งจะปรากฏขึ้นหากคุณต้องการเปรียบเทียบวิธีการต่าง ๆ ที่พยายามแยกแยะระหว่างคลาสสองคลาสเช่นการวิเคราะห์แบบเลือกปฏิบัติหรือแบบจำลองโปรบิต คุณสามารถสร้าง ROC curve สำหรับทุกรุ่นเหล่านี้และรุ่นที่มีพื้นที่สูงสุดภายใต้ส่วนโค้งสามารถมองได้ว่าเป็นรุ่นที่ดีที่สุด

หากคุณต้องการความเข้าใจที่ลึกซึ้งยิ่งขึ้นคุณสามารถอ่านคำตอบของคำถามอื่นเกี่ยวกับ ROC curves ได้โดยคลิกที่นี่


พื้นที่ใต้เส้นโค้ง ROC แตกต่างจากอัตราที่ถูกต้องในตารางการจำแนกอย่างไร
Günal

2
ตารางแสดงเฉพาะค่าที่ถูกต้องและไม่ถูกต้องสำหรับหนึ่งขีด จำกัด อย่างไรก็ตามเส้นโค้ง AUROC เป็นตัวชี้วัดของวิธีการจำแนกอย่างสมบูรณ์และถูกต้องและไม่ถูกต้องสำหรับเกณฑ์ต่างๆ
random_guy

ดีใจที่ได้ยินเช่นนั้น!
random_guy

6

โดยทั่วไปแล้ว AUC จะบอกคุณเสมอว่าการสุ่มจับจากความน่าจะเป็นคำตอบที่คาดการณ์ไว้ในข้อมูล 1 ป้ายของคุณจะดีกว่าการสุ่มจับจากความน่าจะเป็นคำตอบที่คาดการณ์ไว้ในข้อมูล 0 ป้ายกำกับของคุณ


6

แบบจำลองการถดถอยโลจิสติกเป็นวิธีการประมาณความน่าจะเป็นโดยตรง การจำแนกประเภทไม่ควรมีบทบาทในการใช้งาน การจำแนกประเภทใด ๆ ที่ไม่ได้ขึ้นอยู่กับการประเมินระบบสาธารณูปโภค (ฟังก์ชั่นการสูญเสีย / ต้นทุน) ในแต่ละวิชานั้นไม่เหมาะสมยกเว้นในกรณีฉุกเฉินที่พิเศษมาก เส้นโค้ง ROC ไม่มีประโยชน์ที่นี่ ไม่ใช่ความไวหรือความเฉพาะเจาะจงซึ่งเช่นความถูกต้องของการจัดประเภทโดยรวมเป็นกฎการให้คะแนนความแม่นยำที่ไม่เหมาะสม

c15pYp0.05


@ Frank Harrell: คุณช่วยอธิบายเกี่ยวกับการคำนวณเกี่ยวกับการสกัดกั้นรวมถึงความคิดเห็นเกี่ยวกับระยะขอบของข้อผิดพลาดได้ไหม ขอบคุณ!
julieth

@ FrankHarrell คำแนะนำของคุณที่เราต้องการอย่างน้อย 15p ข้อสังเกตใช้ถ้าเราท้ายทำสันเขาถดถอยเพื่อปรับรุ่น? ความเข้าใจของฉันคือการที่เราแทนที่ p แล้วด้วยมิติที่มีประสิทธิภาพ
Lepidopterist

ถูกต้องและฉันจะบอกว่าคุณใช้การลงโทษเช่นการรับกำลังสอง (สันเขา) การลงโทษเพื่อประเมินพารามิเตอร์ซึ่งส่งผลให้การสอบเทียบที่ดีขึ้น
Frank Harrell

4

ฉันไม่ใช่ผู้เขียนของบล็อกนี้และฉันพบว่าบล็อกนี้มีประโยชน์อย่างยิ่ง: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

เมื่อใช้คำอธิบายนี้กับข้อมูลของคุณตัวอย่างเชิงบวกโดยเฉลี่ยจะมีตัวอย่างเชิงลบประมาณ 10% ที่ให้คะแนนสูงกว่ามัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.