F1 / Dice-Score เทียบกับ IoU


24

ฉันสับสนเกี่ยวกับความแตกต่างระหว่างคะแนน F1, คะแนนลูกเต๋าและ IoU (จุดตัดผ่านสหภาพ) ตอนนี้ฉันพบว่า F1 และลูกเต๋าหมายถึงสิ่งเดียวกัน (ใช่ไหม) และ IoU มีสูตรที่คล้ายกันมากกับอีกสองรายการ

  • F1 / ลูกเต๋า:
    2TP2TP+FP+Fยังไม่มีข้อความ
  • IoU / Jaccard:
    TPTP+FP+Fยังไม่มีข้อความ

มีความแตกต่างในทางปฏิบัติหรือสิ่งอื่น ๆ ที่ควรค่าแก่การสังเกตยกเว้น F1 นั้นให้น้ำหนักจริงที่สูงกว่าหรือไม่ มีสถานการณ์ที่ฉันจะใช้ แต่ไม่ใช่อีกสถานการณ์หนึ่งหรือไม่?


เห็นได้ชัดว่าค่าสัมประสิทธิ์ Jaccard ก็เหมือนกับ IoU
pietz

ฉันสนใจเป็นพิเศษหากการวัดบางส่วน (ตอนนี้ 4) เหล่านี้มีไว้สำหรับข้อมูลไบนารีเท่านั้น
pietz

คำตอบ:


37

คุณมาถูกทางแล้ว

ดังนั้นบางสิ่งที่ถูกต้องจากค้างคาว จากคำจำกัดความของสองตัวชี้วัดเรามีคะแนน IoU และ F อยู่ในระดับ 2 ซึ่งกันและกัน:

F/2ผมโอยูF
และพวกเขาพบกันที่ปลายสุดของหนึ่งและศูนย์ภายใต้เงื่อนไข ที่คุณคาดหวัง (คู่ที่สมบูรณ์แบบและไม่ปะติดปะต่อกันทั้งหมด)

ยังทราบว่าอัตราส่วนระหว่างพวกเขาสามารถที่เกี่ยวข้องอย่างชัดเจนกับ IOU:

ผมโอยู/F=1/2+ผมโอยู/2

แต่มีคำสั่งที่แข็งแกร่งกว่าที่สามารถสร้างขึ้นสำหรับการใช้งานทั่วไปของการจัดหมวดหมู่ a la machine learning สำหรับ "ความจริงพื้นฐาน" ที่คงที่ใด ๆ เมตริกทั้งสองนั้นมีความสัมพันธ์เชิงบวกอยู่เสมอ กล่าวคือหากตัวแยกประเภท A ดีกว่า B ภายใต้มาตรวัดเดียวก็จะดีกว่าตัวแยกย่อย B ภายใต้ตัวชี้วัดอื่น

ดังนั้นจึงเป็นเรื่องที่น่าดึงดูดที่จะสรุปว่าทั้งสองตัวชี้วัดนั้นมีหน้าที่เทียบเท่ากันดังนั้นการเลือกระหว่างตัวชี้วัดเหล่านี้เป็นไปตามอำเภอใจ แต่ไม่เร็วนัก! ปัญหามาเมื่อนำคะแนนเฉลี่ยมากกว่าชุดของการหาข้อสรุป แล้วความแตกต่างเกิดขึ้นเมื่อมีปริมาณวิธีการที่เลวร้ายมากลักษณนาม B เป็นกว่าสำหรับกรณีใดก็ตาม

โดยทั่วไปตัวชี้วัด IoU มีแนวโน้มที่จะลงโทษอินสแตนซ์ของการจำแนกที่ไม่ดีมากกว่าคะแนน F ในเชิงปริมาณแม้ว่าพวกเขาทั้งสองจะเห็นด้วยว่าอินสแตนซ์นี้ไม่ดีก็ตาม เช่นเดียวกับวิธีที่ L2 สามารถลงโทษความผิดพลาดที่ใหญ่ที่สุดได้มากกว่า L1 ตัวชี้วัด IoU มีแนวโน้มที่จะมีผล "กำลังสอง" ต่อข้อผิดพลาดที่เกี่ยวข้องกับคะแนน F ดังนั้นคะแนน F จึงมีแนวโน้มที่จะวัดสิ่งที่ใกล้เคียงกับประสิทธิภาพโดยเฉลี่ยในขณะที่คะแนน IoU จะวัดบางสิ่งที่ใกล้เคียงกับประสิทธิภาพของกรณีที่แย่ที่สุด

ตัวอย่างเช่นการอนุมานส่วนใหญ่นั้นค่อนข้างดีกว่าเมื่อใช้ตัวจําแนก A กว่า B แต่บางส่วนของพวกเขาแย่กว่ามากเมื่อใช้ตัวจําแนก A อาจเป็นกรณีที่ F ตัวจําแนกเมตริกเป็นลักษณนาม A ในขณะที่ IoU ลักษณนามข

เพื่อให้แน่ใจว่าตัวชี้วัดทั้งสองนี้เหมือนกันมากกว่าที่ต่างกัน แต่ทั้งคู่ต่างประสบกับข้อเสียเปรียบจากจุดยืนของการรับค่าเฉลี่ยของคะแนนเหล่านี้มากกว่าการอ้างถึงหลายครั้ง: พวกเขาทั้งคู่พูดเกินจริงถึงความสำคัญของเซตด้วยชุดความจริงเชิงบวกที่แทบไม่มีจริง ในตัวอย่างทั่วไปของการแบ่งส่วนภาพถ้าภาพมีเพียงพิกเซลเดียวของคลาสที่ตรวจพบได้บางส่วนและตัวจําแนกตรวจพบพิกเซลและพิกเซลอื่น ๆ หนึ่งคะแนน F ของมันคือ 2/3 ต่ำและ IoU แย่ลงที่ 1 / 2 ข้อผิดพลาดเล็ก ๆ น้อย ๆ เช่นนี้สามารถควบคุมคะแนนเฉลี่ยที่ถ่ายไว้ในชุดภาพได้อย่างจริงจัง กล่าวโดยสรุปคือน้ำหนักของข้อผิดพลาดแต่ละพิกเซลแปรผกผันกับขนาดของชุดที่เลือก / ที่เกี่ยวข้องแทนที่จะปฏิบัติต่อพวกเขาอย่างเท่าเทียมกัน

01


วิลเล็มฉันไม่สามารถขอคำตอบที่ดีกว่านี้ได้ ขอบคุณมากที่สละเวลา
pietz

5
ฉันลองใช้วิธีข้อผิดพลาดทั้งหมดของคุณและต้องการเพิ่มว่ามันทำงานได้ไม่ดีกับความไม่สมดุลอย่างต่อเนื่องระหว่างผลบวกและเชิงลบ ลองนึกภาพชุดข้อมูลทั้งหมดของภาพที่มีเพียงหนึ่งพิกเซลประกอบการแบ่งส่วนความจริงพื้นดิน เครือข่ายประสาทอาจเรียนรู้อย่างรวดเร็วพอสมควรว่าการทำนายที่ว่างเปล่านั้นถูกต้อง 99.9% เสมอโดยใช้ข้อผิดพลาดทั้งหมด การไปกับ IoU หรือ DSC ทำให้เรากดดันเครือข่ายในการค้นหาการแบ่งกลุ่มเนื่องจากเหตุผลเดียวกับที่คุณกล่าวถึงข้างต้น ดังนั้นในที่สุดมันก็เป็นปัญหาอย่างมาก
pietz

1
ใครสามารถช่วยฉันคืนดีสองข้อความต่อไปนี้: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."และ 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith

1
อดีตหมายถึงคะแนนของการอนุมานเดียวและหลังหมายถึงคะแนนเฉลี่ยมากกว่าชุดของการอนุมาน (เช่นชุดของภาพ)
วิลเล็ม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.