ขณะนี้ฉันใช้ตัวแยกประเภทที่แตกต่างกันหลายรายการในเอนทิตีต่าง ๆ ที่ดึงมาจากข้อความและใช้ความแม่นยำ / การเรียกคืนเพื่อสรุปว่าตัวแยกประเภทแต่ละตัวนั้นทำงานได้ดีเพียงใดในชุดข้อมูลที่กำหนด
ฉันสงสัยว่ามีวิธีที่มีความหมายในการเปรียบเทียบประสิทธิภาพของตัวแยกประเภทเหล่านี้ในลักษณะที่คล้ายกัน แต่ยังคำนึงถึงจำนวนรวมของแต่ละเอนทิตีในข้อมูลทดสอบที่ถูกจัดประเภทหรือไม่
ขณะนี้ฉันกำลังใช้ความแม่นยำ / การเรียกคืนเป็นตัวชี้วัดประสิทธิภาพดังนั้นอาจมีสิ่งต่อไปนี้:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
อย่างไรก็ตามชุดข้อมูลที่ฉันใช้งานอาจมีคน 100k บริษัท 5k ชีส 500 ตัวและไข่ 1 ฟอง
ดังนั้นมีสถิติสรุปที่ฉันสามารถเพิ่มลงในตารางด้านบนซึ่งคำนึงถึงจำนวนทั้งหมดของแต่ละรายการด้วยหรือไม่ หรือมีวิธีการวัดความจริงที่ว่าเช่น 100% prec / rec บนลักษณนามไข่อาจไม่มีความหมายกับรายการข้อมูลเพียง 1 รายการ?
สมมติว่าเรามีตัวแยกประเภทหลายร้อยตัวฉันคิดว่าฉันกำลังมองหาวิธีที่ดีในการตอบคำถามเช่น "ตัวแยกประเภทใดที่มีประสิทธิภาพต่ำกว่า" ตัวแยกประเภทใดที่ขาดข้อมูลทดสอบเพียงพอที่จะบอกได้ว่าพวกมันมีประสิทธิภาพต่ำกว่าหรือไม่ "