ฉันจะทำให้เมทริกซ์ความสับสนใหญ่อ่านง่ายขึ้นได้อย่างไร


9

ฉันเพิ่งเผยแพร่ชุดข้อมูล ( ลิงก์ ) ที่มี 369 คลาส ฉันทำการทดลองสองสามครั้งเพื่อให้พวกเขารู้สึกว่างานการจัดหมวดหมู่นั้นยากเพียงใด โดยปกติแล้วฉันชอบมันถ้ามีเมทริกซ์ความสับสนเพื่อดูชนิดของข้อผิดพลาดที่เกิดขึ้น อย่างไรก็ตาม369×369 เมทริกซ์นั้นใช้ไม่ได้

มีวิธีให้ข้อมูลที่สำคัญเกี่ยวกับเมทริกซ์ความสับสนใหญ่หรือไม่? ตัวอย่างเช่นโดยทั่วไปจะมี 0 จำนวนมากซึ่งไม่น่าสนใจ เป็นไปได้ไหมที่จะจัดเรียงคลาสเพื่อให้รายการที่ไม่เป็นศูนย์ส่วนใหญ่อยู่ในแนวทแยงมุมเพื่ออนุญาตให้แสดงเมทริกซ์หลายตัวซึ่งเป็นส่วนหนึ่งของเมทริกซ์ความสับสนแบบสมบูรณ์?

นี่คือตัวอย่างสำหรับเมทริกซ์ความสับสนใหญ่

ตัวอย่างในป่า

รูปที่ 6 ของEMNISTดูดี:

ป้อนคำอธิบายรูปภาพที่นี่

มันง่ายที่จะดูว่ามีหลายกรณี อย่างไรก็ตามเหล่านั้นเป็นเพียง26ชั้นเรียน หากมีการใช้ทั้งหน้าแทนที่จะเป็นเพียงคอลัมน์เดียวอาจเป็น 3 เท่าได้ แต่นั่นจะยังคงเป็นเพียงเท่านั้น326=78ชั้นเรียน ไม่ได้ใกล้เคียงกับ 369 คลาสของ HASY หรือ 1,000 ImageNet

ดูสิ่งนี้ด้วย

คำถามที่คล้ายกันของฉันในCS.stackexchange


ฉันสงสารคุณ ;-) คุณสามารถลองเมทริกซ์ความสับสนของหนึ่งกับทั้งหมดสำหรับแต่ละชั้นเรียน ให้พวกเขาดูหรือชั้นเรียนที่พฤติกรรมไม่ปกติและใช้เมทริกซ์ความสับสนเต็มเพียงพวกเขา
DaL

1
ทำไมไม่เพียงแค่รายงานความแม่นยำของรุ่นสำหรับแต่ละหมวดหมู่ ใครต้องการดูเมทริกซ์ทั้งหมด?
Darrin Thomas

1
@DarrinThomas ไม่เพียง แต่เกี่ยวกับการรายงานลงในกระดาษ นอกจากนี้ยังเกี่ยวกับการวิเคราะห์ข้อผิดพลาดด้วยตนเอง
Martin Thoma

1
ก่อนอื่นคุณสามารถทำให้ค่าของแถวเป็นเรื่องปกติและพล็อตมันเป็นแผนที่ความร้อน นอกจากนี้คุณสามารถจัดเรียงคลาสตามความถูกต้องแบบคลาสสิก (ค่าปกติบนเส้นทแยงมุม) ฉันคิดว่านี่จะช่วยเพิ่มความสามารถในการอ่านได้อย่างมาก
Nikolas Rieble

1
ฉันอาจจะถามสิ่งนี้ในวิชาคณิตศาสตร์ SE / stackoverflow อีกครั้ง ฉันค่อนข้างมั่นใจว่ามีอัลกอริทึมที่เรียงลำดับแถว / คอลัมน์ใหม่ในลักษณะที่ค่าส่วนใหญ่ใกล้เคียงกับเส้นทแยงมุม
Martin Thoma

คำตอบ:


4

คุณสามารถใช้เทคนิคที่ฉันอธิบายไว้ในวิทยานิพนธ์ปริญญาโทของฉัน (หน้า 48ff)และเรียกว่า Confusion Matrix Ordering (CMO):

  1. สั่งซื้อคอลัมน์ / แถวในลักษณะที่ข้อผิดพลาดส่วนใหญ่อยู่ในแนวทแยงมุม
  2. แบ่งเมทริกซ์ความสับสนออกเป็นหลายบล็อกเพื่อให้บล็อกเดียวสามารถพิมพ์ / ดูได้ง่ายและคุณสามารถลบบล็อกบางส่วนออกเนื่องจากมีจุดข้อมูลน้อย

ผลข้างเคียงที่ดี: วิธีการนี้ยังจัดกลุ่มคลาสที่คล้ายกันเข้าด้วยกันโดยอัตโนมัติ รูปที่ 5.12 วิทยานิพนธ์ของฉันแสดงให้เห็นว่า:

ป้อนคำอธิบายรูปภาพที่นี่

คุณสามารถใช้เมทริกซ์ความสับสนในการสั่งซื้อด้วย clana


ดูgithub.com/MartinThoma/clanaเพื่อการติดตั้ง
Martin Thoma

1

แทนที่จะพยายามเรียงลำดับคอลัมน์และแถวใหม่ฉันขอแนะนำให้พยายามหาวิธีอื่นในการแสดงข้อมูล

นี่เป็นข้อเสนอแนะทางเลือกหนึ่งที่เป็นไปได้ คุณสามารถจัดกลุ่มคลาสพูดเข้าไปใน ~ 20 กลุ่มโดยที่แต่ละคลัสเตอร์มี ~ 20 คลาสในนั้นโดยใช้อัลกอริทึมการจัดกลุ่มบางประเภทที่ทำให้คลาสที่คล้ายกันรวมอยู่ในคลัสเตอร์เดียวกัน (เช่นถ้าสองคลาสมักสับสนกัน) พวกมันน่าจะอยู่ในกลุ่มเดียวกันมากกว่า) จากนั้นคุณสามารถแสดงเมทริกซ์ความสับสนแบบหยาบโดยมีหนึ่งแถว / คอลัมน์ต่อคลัสเตอร์ เซลล์ที่(i,j) แสดงความถี่ของอินสแตนซ์ของบางคลาสในคลัสเตอร์ i คาดว่าจะมีคลาสในคลัสเตอร์ j. นอกจากนี้คุณสามารถมีเมทริกซ์ความสับสนแบบละเอียดได้ ~ 20: สำหรับแต่ละคลัสเตอร์คุณสามารถแสดงเมทริกซ์ความสับสนของคลาสสำหรับคลาส ~ 20 ในแต่ละคลัสเตอร์ แน่นอนคุณสามารถขยายสิ่งนี้ได้โดยใช้การจัดกลุ่มแบบลำดับชั้นและมีเมทริกซ์ความสับสนที่หลาย ๆ หน่วย

อาจมีกลยุทธ์การสร้างภาพอื่น ๆ ที่เป็นไปได้เช่นกัน

ในฐานะที่เป็นประเด็นทางปรัชญาทั่วไป: มันอาจช่วยให้ชัดเจนเป้าหมายของคุณ (สิ่งที่คุณต้องการออกจากการสร้างภาพ) คุณสามารถแยกความแตกต่างของการใช้งานการสร้างภาพ:

  • การวิเคราะห์เชิงสำรวจ: คุณไม่แน่ใจว่าสิ่งที่คุณกำลังมองหา; คุณเพียงแค่ต้องการสร้างภาพข้อมูลที่อาจช่วยให้คุณมองหารูปแบบหรือสิ่งประดิษฐ์ที่น่าสนใจในข้อมูล

  • ตัวเลขพร้อมข้อความ: คุณมีข้อความเฉพาะที่คุณต้องการให้ผู้อ่านนำออกไปและคุณต้องการประดิษฐ์การสร้างภาพข้อมูลที่ช่วยสนับสนุนข้อความนั้นหรือแสดงหลักฐานสำหรับข้อความนั้น

มันอาจช่วยให้คุณรู้ว่าคุณกำลังพยายามตั้งเป้าหมายไว้อย่างไรจากนั้นจึงสร้างภาพข้อมูลเพื่อ:

  • หากคุณกำลังทำการวิเคราะห์เชิงสำรวจแทนที่จะพยายามเลือกการสร้างภาพข้อมูลที่สมบูรณ์แบบมักจะเป็นประโยชน์ในการลองสร้างการสร้างภาพข้อมูลให้มากที่สุดเท่าที่คุณจะนึกออก ไม่ต้องกังวลว่าจะมีคนใดที่สมบูรณ์แบบ มันก็โอเคถ้าแต่ละอันมีข้อบกพร่องเพราะแต่ละคนอาจให้มุมมองที่แตกต่างกันกับข้อมูล (มันอาจจะดีในบางวิธีและไม่ดีต่อผู้อื่น)

  • หากคุณมีข้อความใดข้อความหนึ่งที่คุณพยายามสื่อหรือชุดรูปแบบที่คุณพยายามพัฒนาให้มองหาการสร้างภาพข้อมูลที่รองรับชุดรูปแบบนั้น เป็นการยากที่จะสร้างคำแนะนำเฉพาะโดยไม่ทราบว่าชุดรูปแบบ / ข้อความนั้นอาจเป็นอะไร


0

มันสำคัญที่ต้องรู้ว่าทำไมเมทริกซ์ความสับสนของ EMNIST จึงดูดี

แต่ฉันคิดว่ามันแปลกที่พวกเขาไม่ได้รักษาสีไว้ด้วยจำนวนที่สูงกว่าที่มืดที่สุดตัวอย่างเช่นการจำแนกประเภทมิสที่ว่างเปล่าส่วนใหญ่ที่มีค่าศูนย์จะมีสีเทาเข้มกว่าสีที่มีจำนวนเต็ม ดูเหมือนไม่สอดคล้องกัน

ฉันจะลองใช้สไตล์ EMINST ยกเว้นให้สอดคล้องกันโดยที่ color ระบุจำนวนรายการในเซลล์ สีขาวสำหรับค่าศูนย์และสีดำสำหรับรายการส่วนใหญ่

การจำแนกที่สมบูรณ์แบบจะเป็นแนวทแยงสีดำที่มีรูปสามเหลี่ยมสีขาวบนและล่างที่สมบูรณ์ บริเวณที่มีแผ่นปะสีเทาอยู่ในรูปสามเหลี่ยมจะแสดงถึงปัญหา แม้จะอยู่ในคลาส 1,000 ชุดสิ่งนี้จะเป็นประโยชน์ สำหรับ ImageNet ที่คลาสนั้นเป็นแบบลำดับชั้นอาจเรียงลำดับคอลัมน์เพื่อให้คลาสย่อยถูกจัดกลุ่มทางด้านขวาของคลาสพาเรนต์จะนำไปสู่การแพทช์สีเข้มแบบสี่เหลี่ยม

นอกจากนี้หากคุณได้รับการตอบกลับ 5 อันดับแรกสำหรับรูปภาพคลาสอาจไม่เป็นเอกสิทธิ์เฉพาะบุคคลร่วมกันเช่นการจัดหมวดหมู่สุนัขสำหรับรูปภาพของ lap_dog ยังคงเป็นจริงดังนั้นในเมทริกซ์ที่สับสนเช่นนี้คลาสทั่วไปยิ่งเข้ม กว่าการจัดประเภทที่แม่นยำ (ถ้าสีเป็นปกติ) ดังนั้นสี่เหลี่ยมบนซ้ายจะมืดที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.