ดัชนีแรนด์ที่ปรับเทียบกับข้อมูลซึ่งกันและกันที่ปรับแล้ว


10

ฉันพยายามประเมินประสิทธิภาพการจัดกลุ่ม ผมอ่านเอกสาร skiscit เรียนรู้เกี่ยวกับตัวชี้วัด ฉันไม่เข้าใจความแตกต่างระหว่าง ARI และ AMI สำหรับฉันดูเหมือนว่าพวกเขาทำสิ่งเดียวกันในสองวิธีที่แตกต่างกัน

อ้างจากเอกสารประกอบ:

เมื่อได้รับความรู้เกี่ยวกับการกำหนดคลาสความจริงพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ดัชนีแรนด์ที่ปรับปรุงแล้วนั้นเป็นฟังก์ชันที่ใช้วัดความคล้ายคลึงกันของการมอบหมายสองอย่างโดยไม่สนใจการเปลี่ยนลำดับ

VS

เมื่อได้รับความรู้เกี่ยวกับการมอบหมายคลาสความจริงภาคพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ของเราข้อมูลร่วมกันเป็นฟังก์ชั่นที่วัดข้อตกลงของการมอบหมายทั้งสองโดยไม่สนใจการเปลี่ยนลำดับ ... AMI โอกาส.

ฉันควรใช้ทั้งสองอย่างในการประเมินการจัดกลุ่มของฉันหรือสิ่งนี้ซ้ำซ้อนหรือไม่


นายแรนด์ไม่ได้สุ่ม
เลิกเล่น - Anony-Mousse

คำตอบ:


2

พวกเขาเป็นสองในโหลที่ทุกคนพยายามเปรียบเทียบการจัดกลุ่ม

แต่มันไม่เท่ากัน พวกเขาใช้ทฤษฎีที่แตกต่าง

บางครั้ง ARI อาจต้องการผลลัพธ์หนึ่งรายการและ AMI อีกรายการหนึ่ง แต่บ่อยครั้งที่พวกเขาเห็นด้วยในการตั้งค่า (ไม่ได้อยู่ในตัวเลข)


คุณหมายถึงอะไร: "พวกเขาเห็นด้วยในการตั้งค่า (ไม่ได้อยู่ในตัวเลข)?"
al27091

เมื่อคุณเปรียบเทียบผลลัพธ์หลายรายการ
เลิกเล่น - Anony-Mousse

10

กฎของหัวแม่มือคือ:

  • ใช้ARIเมื่อการจัดกลุ่มความจริงภาคพื้นดินมีกลุ่มขนาดใหญ่เท่ากัน
  • สหรัฐอเมริกาAMIเมื่อการจัดกลุ่มความจริงพื้นฐานไม่สมดุลและมีคลัสเตอร์ขนาดเล็กอยู่

ฉันทำงานในหัวข้อนี้ การอ้างอิง: การปรับสำหรับมาตรการเปรียบเทียบการเปรียบเทียบกลุ่มโอกาส


ฉันใช้ HDBSCAN และ KMeans กับชุดข้อมูลของฉันด้วยจำนวนที่เหมาะสมของกลุ่มสำหรับ KMeans และขนาดกลุ่มขั้นต่ำที่ถูกต้องสำหรับ HDBSCAN ปัญหาของฉันคือความก้าวหน้าใน AMI ไม่สัมพันธ์กับความก้าวหน้าใน ARI ฉันได้ค่าเฉลี่ย 0.3 และ 0.35 ใน AMI ซึ่งต่ำ ฉันได้ผลลัพธ์ ARI ใกล้กับ 0: 0.07 และ 0.01 ตามลำดับ แม้ในกรณีที่ฉันได้รับ AMI ที่ดีขึ้นด้วย HDBSCAN คะแนน ARI ของฉันก็ใกล้เคียงกับ 0 นั่นคือ HDBSCAN ผลิต ARI ที่ต่ำกว่า KMeans แม้ในกรณีที่ AMI สูงกว่า
ryuzakinho

ผลลัพธ์ของการทำคลัสเตอร์ประเภทใดที่มีค่าเฉลี่ย 0.3 และ 0.35 สำหรับ AMI สอดคล้องกับ
Simone

1
pastebin.com/raw/WHvTxbLm นี่เป็นหนึ่งในกรณีที่ฉันไม่เข้าใจ: Better AMI ไม่ได้หมายถึง ARI ที่ดีขึ้นและในทางกลับกัน มีเหตุผลใดบ้างที่ฉันจะเชื่อใจในการปรับปรุงสัมพัทธ์ของหนึ่งหรืออื่น ๆ ฉันไม่แน่ใจว่าควรดูตัวชี้วัดใดเพื่อปรับปรุงผลลัพธ์ของฉัน (จากบทความที่คุณเชื่อมโยงฉันรู้สึกว่าควรจะเป็น AMI จากการกระจายชั้นเรียนของฉัน แต่ฉันยังสับสนอยู่)
ryuzakinho

1
ในกรณีที่คุณผล HDBSCAN แสดงให้เห็นว่ามีคลัสเตอร์ขนาดใหญ่มากและมีขนาดเล็กจำนวนมากซึ่งเป็นคำจำกัดความของโซลูชั่นที่ไม่สมดุล ดังนั้น AMI จึงใหญ่กว่ากับ DBSCAN ความจริงพื้นฐานของคุณสมดุลมากกว่าทางออกนั้น ดังนั้นฉันจะใช้ ARI เพื่อเลือกวิธีแก้ปัญหาที่นี่ สิ่งนี้กล่าวว่าดูเหมือนว่าโซลูชันการจัดกลุ่มที่คุณได้รับนั้นไม่ดีเท่านี้ อาจเป็นเพราะคุณมีหลายกลุ่ม คุณสามารถลดจำนวนกลุ่มที่คุณต้องการได้หรือไม่? หรือคุณมีคุณสมบัติที่จะต้องพิจารณามากกว่าการใช้การจัดกลุ่มตามระยะทางอย่างหมดจด?
Simone

1
หลังจากการทดสอบเชิงคุณภาพมากขึ้นปรากฎว่า AMI น่าเชื่อถือมากขึ้นสำหรับกรณีการใช้งานของฉัน ที่จริง AMI กล่าวว่า HDBSCAN นั้นดีกว่าและฉันก็พบว่ามันดีกว่าจริง ๆ แม้ว่าฉันจะมีกลุ่มเสียงขนาดใหญ่กลุ่มหนึ่งกลุ่มอื่น ๆ ก็บริสุทธิ์กว่ากลุ่ม KMEANS
ryuzakinho
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.