คุณมาถูกทางแล้ว
ดังนั้นบางสิ่งที่ถูกต้องจากค้างคาว จากคำจำกัดความของสองตัวชี้วัดเรามีคะแนน IoU และ F อยู่ในระดับ 2 ซึ่งกันและกัน:
F/ 2≤Io คุณ≤ F
และพวกเขาพบกันที่ปลายสุดของหนึ่งและศูนย์ภายใต้เงื่อนไข ที่คุณคาดหวัง (คู่ที่สมบูรณ์แบบและไม่ปะติดปะต่อกันทั้งหมด)
ยังทราบว่าอัตราส่วนระหว่างพวกเขาสามารถที่เกี่ยวข้องอย่างชัดเจนกับ IOU:
ผมo คุณ/ฟ= 1 / 2 + ฉันo คุณ/ 2
แต่มีคำสั่งที่แข็งแกร่งกว่าที่สามารถสร้างขึ้นสำหรับการใช้งานทั่วไปของการจัดหมวดหมู่ a la machine learning สำหรับ "ความจริงพื้นฐาน" ที่คงที่ใด ๆ เมตริกทั้งสองนั้นมีความสัมพันธ์เชิงบวกอยู่เสมอ กล่าวคือหากตัวแยกประเภท A ดีกว่า B ภายใต้มาตรวัดเดียวก็จะดีกว่าตัวแยกย่อย B ภายใต้ตัวชี้วัดอื่น
ดังนั้นจึงเป็นเรื่องที่น่าดึงดูดที่จะสรุปว่าทั้งสองตัวชี้วัดนั้นมีหน้าที่เทียบเท่ากันดังนั้นการเลือกระหว่างตัวชี้วัดเหล่านี้เป็นไปตามอำเภอใจ แต่ไม่เร็วนัก! ปัญหามาเมื่อนำคะแนนเฉลี่ยมากกว่าชุดของการหาข้อสรุป แล้วความแตกต่างเกิดขึ้นเมื่อมีปริมาณวิธีการที่เลวร้ายมากลักษณนาม B เป็นกว่าสำหรับกรณีใดก็ตาม
โดยทั่วไปตัวชี้วัด IoU มีแนวโน้มที่จะลงโทษอินสแตนซ์ของการจำแนกที่ไม่ดีมากกว่าคะแนน F ในเชิงปริมาณแม้ว่าพวกเขาทั้งสองจะเห็นด้วยว่าอินสแตนซ์นี้ไม่ดีก็ตาม เช่นเดียวกับวิธีที่ L2 สามารถลงโทษความผิดพลาดที่ใหญ่ที่สุดได้มากกว่า L1 ตัวชี้วัด IoU มีแนวโน้มที่จะมีผล "กำลังสอง" ต่อข้อผิดพลาดที่เกี่ยวข้องกับคะแนน F ดังนั้นคะแนน F จึงมีแนวโน้มที่จะวัดสิ่งที่ใกล้เคียงกับประสิทธิภาพโดยเฉลี่ยในขณะที่คะแนน IoU จะวัดบางสิ่งที่ใกล้เคียงกับประสิทธิภาพของกรณีที่แย่ที่สุด
ตัวอย่างเช่นการอนุมานส่วนใหญ่นั้นค่อนข้างดีกว่าเมื่อใช้ตัวจําแนก A กว่า B แต่บางส่วนของพวกเขาแย่กว่ามากเมื่อใช้ตัวจําแนก A อาจเป็นกรณีที่ F ตัวจําแนกเมตริกเป็นลักษณนาม A ในขณะที่ IoU ลักษณนามข
เพื่อให้แน่ใจว่าตัวชี้วัดทั้งสองนี้เหมือนกันมากกว่าที่ต่างกัน แต่ทั้งคู่ต่างประสบกับข้อเสียเปรียบจากจุดยืนของการรับค่าเฉลี่ยของคะแนนเหล่านี้มากกว่าการอ้างถึงหลายครั้ง: พวกเขาทั้งคู่พูดเกินจริงถึงความสำคัญของเซตด้วยชุดความจริงเชิงบวกที่แทบไม่มีจริง ในตัวอย่างทั่วไปของการแบ่งส่วนภาพถ้าภาพมีเพียงพิกเซลเดียวของคลาสที่ตรวจพบได้บางส่วนและตัวจําแนกตรวจพบพิกเซลและพิกเซลอื่น ๆ หนึ่งคะแนน F ของมันคือ 2/3 ต่ำและ IoU แย่ลงที่ 1 / 2 ข้อผิดพลาดเล็ก ๆ น้อย ๆ เช่นนี้สามารถควบคุมคะแนนเฉลี่ยที่ถ่ายไว้ในชุดภาพได้อย่างจริงจัง กล่าวโดยสรุปคือน้ำหนักของข้อผิดพลาดแต่ละพิกเซลแปรผกผันกับขนาดของชุดที่เลือก / ที่เกี่ยวข้องแทนที่จะปฏิบัติต่อพวกเขาอย่างเท่าเทียมกัน
ค0ค1