ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล


18

ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล

ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0

จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี

ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP / (FP + TN) = 1.0 เนื่องจาก FPR นั้นสูงมากเราจึงสามารถระบุได้ว่านี่ไม่ใช่ตัวจําแนกที่ดี

เห็นได้ชัดว่า ROC ดีกว่า PR ในชุดข้อมูลที่ไม่สมดุล ใครสามารถอธิบายได้ว่าทำไม PR ถึงดีกว่า


1
ความแม่นยำและการเรียกคืนทั้งสองละเว้นการปฏิเสธเชิงลบ เหตุผลปกติสำหรับการใช้การแลกเปลี่ยน PR (เส้นโค้งหรือ F-score) คือจำนวนของการลบและการลบที่ผิดมีความสัมพันธ์กับ TP และ FP อย่างมาก ดังนั้น TNR-> 1 และ FPR-> 0 (รวมถึง 1 ด้วย | Negs | denominator เดียวกัน) ดังนั้น PR ในกรณีนี้จะสะท้อน (ขยายหรือขยาย) การแลกเปลี่ยน TP กับ FP แต่สิ่งนี้ไม่มีความหมายและสิ่งที่เกี่ยวข้องคือการเพิ่มขึ้นของดัชนี Youden J (Informedness = TPR-FPR = TPR + TNR-1 = Sensitivity + Specificity-1) ซึ่งสอดคล้องกับพื้นที่สองครั้งระหว่างเส้นโค้งจุดปฏิบัติการรูปสามเหลี่ยมเดียวและเส้นโอกาส ROC
David MW Powers

2
@DavidMWPowers ทำไมไม่เปลี่ยนเป็นคำตอบอย่างเป็นทางการ? ดูเหมือนจะเป็นการตอบสนองอย่างมีข้อมูลกับฉัน
gung - Reinstate Monica

2
ความแม่นยำการเรียกคืนความไวและความเฉพาะเจาะจงคือคะแนนความแม่นยำในการสูญเสียข้อมูลที่ไม่ต่อเนื่องและไม่ควรนำมาใช้ พวกเขาสามารถเป็นปัญหาโดยเฉพาะอย่างยิ่งภายใต้ความไม่สมดุล -index (สอดคล้องความน่าจะเป็น AUROC) ทำงานได้ดีภายใต้ความสมดุลมาก ดีกว่า: ใช้กฎการให้คะแนนความแม่นยำที่เหมาะสมซึ่งเกี่ยวข้องกับความน่าจะเป็นบันทึกหรือคะแนน Brier
Frank Harrell

คำตอบ:


8

ขั้นแรกการอ้างสิทธิ์ในโพสต์ Kaggle นั้นเป็นการหลอกลวง บทความที่พวกเขาอ้างถึง " ความสัมพันธ์ระหว่าง Precision-Recall และ ROC Curves " ไม่เคยอ้างว่า PR AUC นั้นดีกว่า ROC AUC พวกเขาเพียงเปรียบเทียบคุณสมบัติของพวกเขาโดยไม่ตัดสินคุณค่าของพวกเขา

เส้นโค้ง ROC บางครั้งอาจทำให้เข้าใจผิดในแอปพลิเคชันที่ไม่สมดุลมาก เส้นโค้ง ROC ยังคงดูดีอยู่ (เช่นดีกว่าสุ่ม) ในขณะที่การแยกประเภทส่วนใหญ่หรือทั้งหมดของชนกลุ่มน้อย

ในทางตรงกันข้ามเส้นโค้ง PR ได้รับการออกแบบมาโดยเฉพาะสำหรับการตรวจจับเหตุการณ์ที่หายากและมีประโยชน์ในสถานการณ์เหล่านั้น พวกเขาจะแสดงให้เห็นว่าลักษณนามของคุณมีประสิทธิภาพต่ำถ้ามันเป็นการจำแนกประเภทของชนกลุ่มน้อยส่วนใหญ่หรือทั้งหมด แต่พวกเขาแปลได้ไม่ดีนักในกรณีที่มีความสมดุลมากกว่าหรือกรณีที่ฟิล์มเนกาทีฟหายาก

นอกจากนี้เนื่องจากพวกเขามีความไวต่อความน่าจะเป็นพื้นฐานของเหตุการณ์ในเชิงบวกพวกเขาไม่ได้พูดคุยที่ดีและนำไปใช้กับชุดข้อมูลเฉพาะที่พวกเขาสร้างขึ้นหรือชุดข้อมูลที่มียอดเงินเท่ากัน ซึ่งหมายความว่าโดยทั่วไปจะเป็นการยากที่จะเปรียบเทียบเส้นโค้ง PR จากการศึกษาที่แตกต่างกันซึ่งเป็นการ จำกัด ประโยชน์ของมัน

เช่นเคยเป็นสิ่งสำคัญที่จะต้องเข้าใจเครื่องมือที่มีให้คุณและเลือกเครื่องมือที่เหมาะสมสำหรับแอปพลิเคชันที่เหมาะสม ฉันแนะนำให้อ่านคำถามROC กับเส้นโค้งความแม่นยำและความทรงจำ ที่นี่ใน CV


3

ตัวอย่างของคุณถูกต้องแน่นอน

อย่างไรก็ตามฉันคิดว่าในบริบทของการแข่งขัน Kaggle / แอปพลิเคชันในชีวิตจริงชุดข้อมูลที่เอียงมักจะหมายถึงชุดข้อมูลที่มีตัวอย่างที่เป็นบวกน้อยกว่าตัวอย่างเชิงลบ เฉพาะในกรณีนี้ PR AUC นั้น "มีความหมาย" มากกว่า ROC AUC

พิจารณาเครื่องตรวจจับที่มี TP = 9, FN = 1, TN = 900, FP = 90 โดยที่มีตัวอย่างบวก 10 ค่าบวก 990 ค่าลบ TPR = 0.9, FPR = 0.1 ซึ่งระบุว่าเป็นคะแนน ROC ที่ดีอย่างไรก็ตามความแม่นยำ = 0.1 ซึ่งระบุว่าเป็นคะแนน PR ที่ไม่ดี


0

คุณครึ่งทางนั้น

โดยปกติเมื่อฉันทำโมเดลที่ไม่สมดุลเฮคหรือแม้แต่โมเดลที่สมดุลฉันดู PR สำหรับชั้นเรียนทั้งหมดของฉัน

ในตัวอย่างของคุณใช่คลาสบวกของคุณมี P = 0.9 และ R = 1.0 แต่สิ่งที่คุณควรดูคือชั้นเรียนทั้งหมดของคุณ ดังนั้นสำหรับชั้นเรียนที่เป็นลบของคุณ P = 0 และ R = 0 และคุณมักจะไม่เพียงแค่ดูคะแนน PR เป็นรายบุคคล คุณต้องการดูคะแนน F1 (มาโคร F1 หรือ F1 ไมโครขึ้นอยู่กับปัญหาของคุณ) ซึ่งเป็นค่าเฉลี่ยฮาร์มอนิกของคะแนน PR ของคุณสำหรับคลาส 1 และคลาส 0 คะแนน PR คลาส 1 ของคุณดีมาก แต่รวมกับ คะแนน PR ระดับ 0 ของคุณคะแนน F1 ของคุณจะเป็นแบบ TERRIBLE ซึ่งเป็นข้อสรุปที่ถูกต้องสำหรับสถานการณ์ของคุณ

TL, DR: ดูคะแนน PR สำหรับชั้นเรียนทั้งหมดของคุณและรวมเข้ากับตัวชี้วัดเช่นคะแนน F1 เพื่อให้ได้ข้อสรุปที่สมจริงเกี่ยวกับประสิทธิภาพของแบบจำลองของคุณ คะแนน F1 สำหรับสถานการณ์ของคุณจะเป็นแบบ TERRIBLE ซึ่งเป็นข้อสรุปที่ถูกต้องสำหรับสถานการณ์ของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.