ฉันกำลังทดลองกับการจำแนกข้อมูลออกเป็นกลุ่ม ฉันค่อนข้างใหม่สำหรับหัวข้อนี้และพยายามเข้าใจผลลัพธ์ของการวิเคราะห์
ใช้ตัวอย่างจากQuick-R แนะนำให้ใช้หลายR
แพ็คเกจ ฉันได้ลองใช้แพ็คเกจสองชุดนี้ ( fpc
โดยใช้kmeans
ฟังก์ชั่นและmclust
) แง่มุมหนึ่งของการวิเคราะห์ที่ฉันไม่เข้าใจคือการเปรียบเทียบผลลัพธ์
# comparing 2 cluster solutions
library(fpc)
cluster.stats(d, fit1$cluster, fit2$cluster)
ฉันได้อ่านในส่วนต่าง ๆ ที่เกี่ยวข้องของfpc
คู่มือและยังไม่ชัดเจนในสิ่งที่ฉันควรจะมุ่ง ตัวอย่างเช่นนี่คือผลลัพธ์ของการเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันสองวิธี:
$n
[1] 521
$cluster.number
[1] 4
$cluster.size
[1] 250 119 78 74
$diameter
[1] 5.278162 9.773658 16.460074 7.328020
$average.distance
[1] 1.632656 2.106422 3.461598 2.622574
$median.distance
[1] 1.562625 1.788113 2.763217 2.463826
$separation
[1] 0.2797048 0.3754188 0.2797048 0.3557264
$average.toother
[1] 3.442575 3.929158 4.068230 4.425910
$separation.matrix
[,1] [,2] [,3] [,4]
[1,] 0.0000000 0.3754188 0.2797048 0.3557264
[2,] 0.3754188 0.0000000 0.6299734 2.9020383
[3,] 0.2797048 0.6299734 0.0000000 0.6803704
[4,] 0.3557264 2.9020383 0.6803704 0.0000000
$average.between
[1] 3.865142
$average.within
[1] 1.894740
$n.between
[1] 91610
$n.within
[1] 43850
$within.cluster.ss
[1] 1785.935
$clus.avg.silwidths
1 2 3 4
0.42072895 0.31672350 0.01810699 0.23728253
$avg.silwidth
[1] 0.3106403
$g2
NULL
$g3
NULL
$pearsongamma
[1] 0.4869491
$dunn
[1] 0.01699292
$entropy
[1] 1.251134
$wb.ratio
[1] 0.4902123
$ch
[1] 178.9074
$corrected.rand
[1] 0.2046704
$vi
[1] 1.56189
คำถามหลักของฉันที่นี่คือเพื่อให้เข้าใจวิธีตีความผลลัพธ์ของการเปรียบเทียบคลัสเตอร์นี้ดีขึ้น
ก่อนหน้านี้ฉันได้ถามเพิ่มเติมเกี่ยวกับผลกระทบของข้อมูลการปรับขนาดและการคำนวณเมทริกซ์ระยะทาง อย่างไรก็ตามคำตอบนั้นชัดเจนโดยมาเรียซอฟต์เฟอร์และฉันเพิ่งจัดคำถามใหม่เพื่อเน้นย้ำว่าฉันสนใจในผลงานของฉันซึ่งเป็นการเปรียบเทียบอัลกอริธึมการจัดกลุ่มที่แตกต่างกันสองแบบ
ส่วนหนึ่งของคำถามก่อนหน้า : หากฉันทำคลัสเตอร์ประเภทใดฉันควรปรับขนาดข้อมูลเสมอหรือไม่ ตัวอย่างเช่นฉันใช้ฟังก์ชันdist()
บนชุดข้อมูลที่ปรับขนาดของฉันเป็นอินพุตไปยังcluster.stats()
ฟังก์ชัน แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้น ฉันอ่านเกี่ยวกับdist()
ที่นี่และระบุว่า:
ฟังก์ชันนี้คำนวณและส่งคืนเมทริกซ์ระยะทางที่คำนวณโดยใช้การวัดระยะทางที่ระบุเพื่อคำนวณระยะทางระหว่างแถวของเมทริกซ์ข้อมูล