ฉันควรตัดสินใจตามมาตรการการประเมินโดยเฉลี่ยแบบไมโครหรือโดยเฉลี่ยหรือไม่


21

ฉันใช้การตรวจสอบความถูกต้องไขว้แบบ 10 เท่าสำหรับอัลกอริธึมการจำแนกประเภทไบนารีที่แตกต่างกันโดยมีชุดข้อมูลเดียวกันและได้รับผลลัพธ์เฉลี่ยทั้งไมโครและมาโคร ควรกล่าวถึงว่านี่เป็นปัญหาการจำแนกประเภทฉลากหลายป้าย

ในกรณีของฉันเชิงลบที่แท้จริงและผลบวกที่แท้จริงนั้นมีน้ำหนักเท่ากัน นั่นหมายความว่าการทำนายเชิงลบที่ถูกต้องนั้นมีความสำคัญไม่แพ้กันกับการทำนายผลบวกที่แท้จริง

การวัดแบบไมโครเฉลี่ยต่ำกว่าค่าเฉลี่ยของมาโคร นี่คือผลลัพธ์ของ Neural Network และ Support Vector Machine:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันยังใช้การทดสอบแบ่งเปอร์เซ็นต์บนชุดข้อมูลเดียวกันด้วยอัลกอริทึมอื่น ผลการวิจัยพบว่า:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันอยากจะเปรียบเทียบการทดสอบแบ่งเปอร์เซ็นต์กับผลลัพธ์ที่ได้มาโครเฉลี่ย แต่สิ่งนั้นยุติธรรมหรือไม่ ฉันไม่เชื่อว่าผลลัพธ์เฉลี่ยแบบมาโครนั้นมีความลำเอียงเพราะผลบวกจริงและเชิงลบที่แท้จริงนั้นมีน้ำหนักเท่ากัน แต่จากนั้นอีกครั้งฉันสงสัยว่านี่จะเหมือนกับการเปรียบเทียบแอปเปิ้ลกับส้มหรือไม่?

UPDATE

จากความคิดเห็นฉันจะแสดงให้เห็นว่าการคำนวณไมโครและมาโครเฉลี่ยคำนวณอย่างไร

ฉันมี 144 ป้ายกำกับ (เช่นเดียวกับคุณสมบัติหรือคุณลักษณะ) ที่ฉันต้องการทำนาย ความแม่นยำการเรียกคืนและการวัดค่า F ถูกคำนวณสำหรับแต่ละฉลาก

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

พิจารณาการวัดผลการประเมินเลขฐานสอง B (tp, tn, fp, fn) ที่คำนวณจากผลบวกจริง (tp), ลบจริง (tn), ลบบวก (fp) และลบเชิงลบ (fn) ค่าเฉลี่ยของมาโครและไมโครของการวัดที่เฉพาะเจาะจงสามารถคำนวณได้ดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

การใช้สูตรเหล่านี้เราสามารถคำนวณค่าเฉลี่ยไมโครและมาโครดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นการวัดแบบไมโครเฉลี่ยจึงเพิ่ม tp, fp และ fn ทั้งหมด (สำหรับแต่ละ label) หลังจากนั้นจะทำการประเมินไบนารีใหม่ การวัดค่าเฉลี่ยแบบมาโครจะเพิ่มการวัดทั้งหมด (ความแม่นยำการเรียกคืนหรือการวัดค่า F) แล้วหารด้วยจำนวนป้ายกำกับซึ่งมีลักษณะเหมือนค่าเฉลี่ยมากขึ้น

ตอนนี้คำถามที่เป็นที่หนึ่งที่จะใช้?


เมื่อคุณถามว่าจะใช้อะไรการใช้งานที่ตั้งใจไว้คืออะไร? การเลือกระหว่างสองวิธีสรุปผลหรืออย่างอื่น?
ฌอนอีสเตอร์

1
การใช้งานที่ตั้งใจคือการหาว่าแบบจำลองใดที่เหนือกว่ามากที่สุดและเพื่อบอกบางสิ่งเกี่ยวกับประสิทธิภาพที่ดี ฉันพบว่าการวัดแบบไมโครนั้นยอดเยี่ยมกว่า: ฟอร์แมน, จอร์จและมาร์ตินโชลซ์ "แอปเปิ้ลต่อแอปเปิ้ลในการศึกษาตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนาม" จดหมายข่าว ACM SIGKDD Explorations 12.1 (2010): 49-57
Kenci

@ Kenci ฉันเชื่อว่าคุณควรโพสต์ข้อความนั้นเพื่อตอบคำถามของคุณเองและยืนยันว่าเป็น anwer ที่ถูกต้อง ขอบคุณสำหรับการอ้างอิง!
fnl

คำตอบ:


27

หากคุณคิดว่าป้ายกำกับทั้งหมดมีขนาดใหญ่กว่าหรือน้อยกว่ากัน (มีจำนวนครั้งโดยประมาณเท่ากัน) ให้ใช้คำสั่งใดก็ได้

หากคุณคิดว่ามีฉลากที่มีอินสแตนซ์มากกว่าคนอื่น ๆ และถ้าคุณต้องการที่จะมีอคติของตัวชี้วัดที่มีต่อส่วนใหญ่คนที่มีประชากรใช้Micromedia

หากคุณคิดว่ามีฉลากที่มีอินสแตนซ์มากกว่าคนอื่น ๆ และถ้าคุณต้องการที่จะมีอคติตัวชี้วัดของคุณไปยังน้อยคนที่มีประชากร (หรืออย่างน้อยคุณไม่ต้องการที่จะอคติต่อคนที่มีประชากรมากที่สุด) การใช้โปรแกรม Macromedia

หากผลลัพธ์micromediaนั้นต่ำกว่า macromedia อย่างมีนัยสำคัญนั่นหมายความว่าคุณมีการจำแนกประเภทรวมในฉลากที่มีประชากรมากที่สุดในขณะที่ฉลากขนาดเล็กของคุณอาจจำแนกอย่างถูกต้อง หากผลลัพธ์ของmacromediaนั้นต่ำกว่า micromedia อย่างมีนัยสำคัญนั่นหมายถึงว่าฉลากขนาดเล็กของคุณได้รับการจำแนกไม่ดีในขณะที่คนที่มีขนาดใหญ่ของคุณอาจจำแนกอย่างถูกต้อง

หากคุณไม่แน่ใจว่าต้องทำอย่างไรให้ดำเนินการเปรียบเทียบทั้งแบบไมโครและมาโคร :)

นี่เป็นบทความที่ดีในเรื่อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.