การวัดความถูกต้องของข้อมูลมัลติมิเตอร์มีอะไรบ้าง


25

พิจารณาสถานการณ์ที่คุณได้รับเมทริกซ์ KnownLabel และเมทริกซ์ PredictedLabel ฉันต้องการวัดความดีของเมทริกซ์ PredictedLabel เทียบกับเมทริกซ์ KnownLabel

แต่ความท้าทายในที่นี้คือ KnownLabel Matrix มีเพียงไม่กี่แถวเท่านั้นที่มี 1 แถวและอีกสองสามแถวที่มีจำนวนมาก 1 แถว (อินสแตนซ์เหล่านั้นมีป้ายกำกับหลายรายการ) ตัวอย่างของ KnownLabel Matrix ได้รับด้านล่าง

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

ในเมทริกซ์ข้างต้นอินสแตนซ์ข้อมูล 1 และ 2 เป็นข้อมูลเลเบลเดียวอินสแตนซ์ข้อมูล 3 และ 4 เป็นข้อมูลเลเบลสองรายการและข้อมูลอินสแตนซ์ 5 คือข้อมูลเลเบลสามรายการ

ตอนนี้ฉันมีเมทริกซ์ PredictedLabel ของอินสแตนซ์ข้อมูลโดยใช้อัลกอริทึม

ฉันต้องการทราบมาตรการต่าง ๆ ที่สามารถใช้วัดความดีของ PredictedLabel Matrix เทียบกับ KnownLabel Matrix

ฉันสามารถนึกถึง Frobeinus norm แตกต่างระหว่างพวกเขาเป็นหนึ่งในวัด แต่ฉันกำลังมองหาการวัดเช่นความแม่นยำ(=Correctly_predicted_instancetotal_instance)

ที่นี่เราจะกำหนดสำหรับอินสแตนซ์ข้อมูลหลายตัวได้อย่างไรCorrectly_predicted


5
(+1) Sidenote: มีเหตุผลบางอย่างที่คุณไม่ได้รับคำตอบในคำถามส่วนใหญ่หรือไม่? ทำไมคุณไม่แสดงความคิดเห็นเมื่อคำตอบที่ให้ไว้ไม่ได้แก้ปัญหาของคุณ? ตัวอย่างเช่นstats.stackexchange.com/questions/9947/…
steffen

คำตอบ:


23

(1) ให้ภาพรวมที่ดี:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

หน้าวิกิพีเดีย n จำแนกหลายป้ายมีส่วนที่เกี่ยวกับตัวชี้วัดการประเมินผลเป็นอย่างดี

ฉันจะเพิ่มคำเตือนว่าในการตั้งค่าแบบหลายแถบความถูกต้องไม่ชัดเจน: อาจหมายถึงอัตราส่วนการจับคู่ที่แน่นอนหรือคะแนน Hamming (ดูโพสต์นี้) น่าเสียดายที่เอกสารจำนวนมากใช้คำว่า "ความถูกต้อง"


(1) Sorower, Mohammad S. " การสำรวจวรรณกรรมเกี่ยวกับอัลกอริทึมสำหรับการเรียนรู้แบบหลายฉลาก " Oregon State University, Corvallis (2010)


2
คำจำกัดความเหล่านี้ขัดแย้งกับคำจำกัดความทั่วไปสำหรับความแม่นยำและการเรียกคืนหรือไม่? ฉันได้อ่านเสมอว่าความแม่นยำควรหารด้วย TP + FP และการเรียกคืนควรหารด้วย TP + FN (คำจำกัดความที่เสนอที่นี่ทำตรงข้ามถ้าฉันเข้าใจดี)
tomasyany

YผมY={0,1}kผมZผม=ชั่วโมง(xผม)={0,1}kชั่วโมงYผมZผม

สำหรับการaccuracyวัดคุณจะจัดการกับกรณีที่ตัวส่วนได้อย่างสวยงามได้|Y + Z| == 0อย่างไร
ihadanny

3
@tomasyany อ้างถึงคำจำกัดความของข้อความ (ไม่ใช่สูตร) ​​ซึ่งดูเหมือนจะสลับไปมา
Narfanar

และนิยาม AP นี้ดูเหมือน mAP (หมายถึง AP) ใช่ไหม สิ่งที่เรียกว่า 'ความแม่นยำ' คือค่าเฉลี่ยของ IoU เงื่อนไขโดยรวมค่อนข้างสับสนเล็กน้อย
Narfanar

5

การสูญเสีย Hamming น่าจะเป็นฟังก์ชั่นการสูญเสียที่ใช้กันอย่างแพร่หลายในการจำแนกประเภทหลายฉลาก

ดูที่การศึกษาเชิงประจักษ์เกี่ยวกับการจำแนกประเภทหลายฉลากและการจำแนกประเภทหลายฉลาก: ภาพรวมซึ่งทั้งสองอย่างนี้หารือกัน


3

Correctly Predictedคือจุดตัดระหว่างชุดของป้ายกำกับที่แนะนำและชุดที่คาดหวัง Total Instancesคือการรวมกันของเซตข้างต้น (ไม่นับซ้ำ)

ดังนั้นให้เป็นตัวอย่างเดียวที่คุณคาดการณ์ชั้นเรียนA, G, Eและกรณีทดสอบได้E, A, H, Pเป็นคนที่ถูกต้องที่คุณท้ายด้วยAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.