สัญชาตญาณของการแปรผันของข้อมูล (VI) สำหรับการตรวจสอบความถูกต้องของคลัสเตอร์คืออะไร


11

สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVIตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ

ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

ตอนนี้ทำการเปรียบเทียบตามVIตัวชี้วัด / ดัชนีอื่น ๆ และเรียงตามลำดับเวลาของการปรากฏตัวของพวกเขาในวรรณคดี

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

อย่างที่คุณเห็นVIค่าต่างจากคนอื่น ๆ ทั้งหมด

  • ค่านี้บอกอะไร (และเกี่ยวข้องกับรูปด้านล่าง) อย่างไร
  • แนวทางในการพิจารณาค่านี้ต่ำหรือสูงคืออะไร
  • มีแนวทางใดที่กำหนดไว้หรือไม่?

บางทีผู้เชี่ยวชาญในสาขาอาจให้คำอธิบายที่สมเหตุสมผลสำหรับฆราวาสอย่างฉันเมื่อพยายามรายงานผลลัพธ์ดังกล่าว ฉันจะขอบคุณจริง ๆ ถ้ามีคนให้แนวทางสำหรับตัวชี้วัดอื่นด้วยเช่นกัน (เมื่อพิจารณาว่ามูลค่ามีขนาดใหญ่หรือเล็กกล่าวคือเกี่ยวข้องกับความคล้ายคลึงกันระหว่างสองกลุ่ม)

ฉันได้อ่านกระทู้ที่เกี่ยวข้อง CV ที่นี่และที่นี่VIแต่ก็ยังไม่สามารถเข้าใจเบื้องหลังปรีชา มีคนอธิบายเรื่องนี้เป็นภาษาอังกฤษธรรมดาได้ไหม

รูปด้านล่างเป็นรูปที่ 2 VIจากกระดาษที่กล่าวถึงข้างต้นเกี่ยวกับ

ป้อนคำอธิบายรูปภาพที่นี่


2
ความคล้ายคลึงกันและการวัดเหล่านี้ทั้งหมด (โปรดสังเกตความแตกต่างระหว่างการวัดสองประเภท) ในทางใดทางหนึ่งหรือในปริมาณอื่น ๆ ของการแตกแฟรกเมนต์ที่เกี่ยวข้องกับการแบ่งย่อยทั่วไปที่ใหญ่ที่สุดระหว่างสองพาร์ติชัน พวกเขาใช้สิ่งที่เรียกว่าเมทริกซ์ความสับสน โดยการพิจารณาสูตรที่แม่นยำสำหรับ VI สามารถเข้าใจได้ว่าเป็นการวัดการแตกแฟรกเมนต์นั้น ฉันขอแนะนำให้ดูสูตรในหนึ่งในสิ่งพิมพ์ของ Meila และอ่านเกี่ยวกับเวอร์ชันปกติของระยะทางทั้งหมดเหล่านี้เนื่องจากพวกมันมีสเกลต่างกัน นี่อาจเป็นจุดที่สำคัญที่สุด
micans

ฉันยังดิ้นรนกับการตีความ VI และพบว่าบทความนี้มีประโยชน์มาก!
Pizza

คำตอบ:


1

คุณต้องตระหนักว่ามาตรการต่าง ๆ อาจมีการตีความที่แตกต่างกัน

ตัดสินจากพล็อตของคุณVI ต่ำเป็นสิ่งที่ดี

1 - 0.2451685 = 0.7548315

ซึ่งมีมากขึ้นสอดคล้องกับมาตรการอื่น ๆ

อย่างไรก็ตามทราบว่าส่วนใหญ่ของมาตรการเหล่านี้วัดสิ่งที่แตกต่าง

ไม่มีเหตุผลที่จะคิดว่าเพียงเพราะการวัดหนึ่งคือ 0.8 การวัดอื่นควรเป็น 0.8


ฉันคิดว่า OP จะขอบคุณถ้าคุณสามารถอธิบายสิ่งที่แตกต่างกันในการวัดแต่ละอย่าง
gung - Reinstate Monica

ฉันไม่รู้จักพวกเขาดีพอที่จะอธิบายพวกเขาแต่ละคน เห็นได้ชัดว่าไม่มีขนาดเทียบเคียง / หน่วย เช่นเดียวกับโวลต์และเท้านั้นไม่สามารถเปรียบเทียบกันได้
จบการทำงาน - Anony-Mousse
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.