การได้รับ P / R / F1 สูงในชุดข้อมูลขนาดเล็กหรือบนชุดข้อมูลที่มีรูปแบบเหมือนกัน / คาดเดาได้น่าจะง่ายกว่าการรับ P / R / F1 ที่สูงในชุดข้อมูลที่มีขนาดใหญ่ขึ้นหรือวุ่นวายมากขึ้น ดังนั้นการปรับปรุง P / R / F1 บนชุดข้อมูลที่มีขนาดใหญ่และวุ่นวายมากขึ้นจึงมีความสำคัญมากกว่า
การทำตามสัญชาตญาณนี้คุณอาจต้องเข้าถึงผลลัพธ์ของวิธี "กล่องดำ" เพื่อวัดความแตกต่างในการกระจายของผลลัพธ์ขณะที่คำนึงถึงขนาดและความหลากหลายในชุดนั้น P / R / F1 เพียงอย่างเดียวอาจเป็นข้อมูลที่น้อยเกินไป
การทดสอบความสำคัญในการตั้งค่านี้มักจะทำโดยการสร้างสมมติฐานว่าง (ทั้งสองอัลกอริทึมผลิตเสมอเอาท์พุทเดียวกัน) แล้วคำนวณความน่าจะเป็นของการสังเกตความแตกต่างในผลลัพธ์ที่คุณกำลังสังเกตว่าอัลกอริทึมเหมือนกัน หากความน่าจะเป็นน้อยกว่า. 05 คุณจะปฏิเสธสมมติฐานว่างและสรุปว่าการปรับปรุงมีความสำคัญ
บทความนี้มีการอภิปรายที่เกี่ยวข้อง:
http://www.aclweb.org/anthology/C00-2137