การตีความของพื้นที่ภายใต้เส้นโค้ง PR


10

ขณะนี้ฉันกำลังเปรียบเทียบสามวิธีและฉันมีความแม่นยำ auROC และ auPR เป็นตัวชี้วัด และฉันมีผลลัพธ์ต่อไปนี้:

วิธี A - acc: 0.75, auROC: 0.75, auPR: 0.45

วิธี B - acc: 0.65, auROC: 0.55, auPR: 0.40

วิธี C - acc: 0.55, auROC: 0.70, auPR: 0.65

ฉันมีความเข้าใจที่ถูกต้องและ auROC (จำได้ดีฉันมักจะพยายามหาประโยคเช่น "auROC = ลักษณะความสามารถในการทำนายชั้นบวกได้ดี" ในขณะที่ไม่ถูกต้องแม่นยำช่วยให้ฉันจำได้) ฉันไม่เคยมีข้อมูล auPR มาก่อนและในขณะที่ฉันเข้าใจว่ามันถูกสร้างขึ้นมาได้อย่างไรฉันไม่สามารถ "รู้สึก" อยู่ข้างหลังได้

ในความเป็นจริงฉันไม่เข้าใจว่าทำไมวิธี C มีคะแนนสูงอย่างไม่น่าเชื่อสำหรับ auPR ในขณะที่ไม่ดี / เฉลี่ยสำหรับความถูกต้องและ auPR

หากมีคนช่วยให้ฉันเข้าใจได้ดีขึ้นเล็กน้อยด้วยคำอธิบายง่ายๆที่จะดีจริงๆ ขอบคุณ.

คำตอบ:


11

หนึ่งแกนของเส้นโค้ง ROC และ PR เหมือนกันนั่นคือ TPR: มีกี่กรณีที่เป็นบวกที่ได้รับการจำแนกอย่างถูกต้องจากกรณีที่เป็นบวกทั้งหมดในข้อมูล

แกนอื่นนั้นแตกต่างกัน ROC ใช้ FPR ซึ่งเป็นวิธีการประกาศจำนวนบวกผิดพลาดจากเชิงลบทั้งหมดในข้อมูล เส้นโค้ง PR ใช้ความแม่นยำ: จำนวนผลบวกจริงทั้งหมดที่คาดการณ์ว่าเป็นผลบวก ดังนั้นฐานของแกนที่สองจึงแตกต่างกัน ROC ใช้สิ่งที่อยู่ในข้อมูล PR ใช้สิ่งที่อยู่ในการทำนายเป็นพื้นฐาน

ประชาสัมพันธ์โค้งคิดว่าจะเป็นข้อมูลมากขึ้นเมื่อมีความไม่สมดุลชั้นสูงในข้อมูลดูกระดาษนี้http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf


1
สำหรับ auROC 0.5 นั้นเป็นขั้นต่ำ (เพราะจะน้อยกว่าจะดีกว่าโดยการสลับการแสดงผล) มีกฎที่คล้ายกันกับ auPR หรือไม่? นอกจากนี้เกี่ยวกับการวัดของฉัน: ฉันสามารถยืนยันอะไรได้บ้างโดยดูที่คะแนนของวิธีการ C เนื่องจากฉันทำงานกับชุดข้อมูลเดียวกันใน 3 กรณีและจากมุมมองของฉันสำหรับชุดข้อมูลที่มีการแจกแจงแบบคู่มากขึ้นหรือน้อยลงในชั้นเรียนจึงไม่สมเหตุสมผลที่ auROC และ auPR ไม่เป็นไปตามลำดับเดียวกันสำหรับฉัน วิธีการ
AdrienNK

1
คะแนนลักษณนามแบบสุ่มใน auPR คืออะไร ฉันรู้ว่ามันเป็น 0.5 ใน auROC แต่ฉันไม่สามารถรู้ได้ใน auPR
Jack Twain

9
คะแนน auPR ที่คาดไว้สำหรับตัวจําแนกแบบสุ่มเป็นเพียงสัดส่วนของคดีที่เป็นบวกในชุดข้อมูล นั่นคือความแม่นยำที่คุณคาดหวังหากคุณคาดเดาชั้นเรียนและคุณจะได้รับความแม่นยำสำหรับการเรียกคืนทุกระดับ ดังนั้นเส้นโค้ง PR ที่คาดหวังสำหรับตัวจําแนกแบบสุ่มเป็นเพียงรูปสี่เหลี่ยมผืนผ้าที่มีความยาวด้าน "สัดส่วนของผลบวกที่แท้จริง" x 1 ตัวอย่างเช่นหากชุดข้อมูลของคุณมีกรณีบวก 10% และกรณีลบ 90% คาด auPR ต่ำกว่าโอกาสคือ 0.1
Lizzie Silver
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.