3
เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม
ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …