การทดสอบความสำคัญขึ้นอยู่กับความแม่นยำ / การเรียกคืน / F1


12

เป็นไปได้หรือไม่ที่จะทำการทดสอบอย่างมีนัยสำคัญโดยพิจารณาจากคะแนนความแม่นยำ / การเรียกคืน / F1 เท่านั้น

ตัวอย่างเช่นหากคุณเจอ 2 ระบบในกระดาษซึ่งมีรายงาน P / R / F1 เท่านั้น (ในชุดข้อมูลเดียวกัน ฯลฯ ) คุณสามารถทำการทดสอบนัยสำคัญทางสถิติได้หรือไม่? ถ้าใช่มันเป็นเช่นไร?

คำตอบ:


4

การได้รับ P / R / F1 สูงในชุดข้อมูลขนาดเล็กหรือบนชุดข้อมูลที่มีรูปแบบเหมือนกัน / คาดเดาได้น่าจะง่ายกว่าการรับ P / R / F1 ที่สูงในชุดข้อมูลที่มีขนาดใหญ่ขึ้นหรือวุ่นวายมากขึ้น ดังนั้นการปรับปรุง P / R / F1 บนชุดข้อมูลที่มีขนาดใหญ่และวุ่นวายมากขึ้นจึงมีความสำคัญมากกว่า

การทำตามสัญชาตญาณนี้คุณอาจต้องเข้าถึงผลลัพธ์ของวิธี "กล่องดำ" เพื่อวัดความแตกต่างในการกระจายของผลลัพธ์ขณะที่คำนึงถึงขนาดและความหลากหลายในชุดนั้น P / R / F1 เพียงอย่างเดียวอาจเป็นข้อมูลที่น้อยเกินไป

การทดสอบความสำคัญในการตั้งค่านี้มักจะทำโดยการสร้างสมมติฐานว่าง (ทั้งสองอัลกอริทึมผลิตเสมอเอาท์พุทเดียวกัน) แล้วคำนวณความน่าจะเป็นของการสังเกตความแตกต่างในผลลัพธ์ที่คุณกำลังสังเกตว่าอัลกอริทึมเหมือนกัน หากความน่าจะเป็นน้อยกว่า. 05 คุณจะปฏิเสธสมมติฐานว่างและสรุปว่าการปรับปรุงมีความสำคัญ

บทความนี้มีการอภิปรายที่เกี่ยวข้อง: http://www.aclweb.org/anthology/C00-2137

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.