สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVI
ตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ
ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
ตอนนี้ทำการเปรียบเทียบตามVI
ตัวชี้วัด / ดัชนีอื่น ๆ และเรียงตามลำดับเวลาของการปรากฏตัวของพวกเขาในวรรณคดี
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
อย่างที่คุณเห็นVI
ค่าต่างจากคนอื่น ๆ ทั้งหมด
- ค่านี้บอกอะไร (และเกี่ยวข้องกับรูปด้านล่าง) อย่างไร
- แนวทางในการพิจารณาค่านี้ต่ำหรือสูงคืออะไร
- มีแนวทางใดที่กำหนดไว้หรือไม่?
บางทีผู้เชี่ยวชาญในสาขาอาจให้คำอธิบายที่สมเหตุสมผลสำหรับฆราวาสอย่างฉันเมื่อพยายามรายงานผลลัพธ์ดังกล่าว ฉันจะขอบคุณจริง ๆ ถ้ามีคนให้แนวทางสำหรับตัวชี้วัดอื่นด้วยเช่นกัน (เมื่อพิจารณาว่ามูลค่ามีขนาดใหญ่หรือเล็กกล่าวคือเกี่ยวข้องกับความคล้ายคลึงกันระหว่างสองกลุ่ม)
ฉันได้อ่านกระทู้ที่เกี่ยวข้อง CV ที่นี่และที่นี่VI
แต่ก็ยังไม่สามารถเข้าใจเบื้องหลังปรีชา มีคนอธิบายเรื่องนี้เป็นภาษาอังกฤษธรรมดาได้ไหม
รูปด้านล่างเป็นรูปที่ 2 VI
จากกระดาษที่กล่าวถึงข้างต้นเกี่ยวกับ