ฉันเดาว่าฉันพบคำตอบของฉันสำหรับการจัดกลุ่ม kmeans:
จากการดูซอร์สโค้ด git ฉันพบว่าสำหรับการเรียนรู้ scikit ความเฉื่อยจะถูกคำนวณเป็นผลรวมของระยะห่างกำลังสองสำหรับแต่ละจุดจนถึงเซนทรอยด์ที่ใกล้ที่สุดนั่นคือคลัสเตอร์ที่ได้รับมอบหมาย ดังนั้นโดยที่คือเซนทรอยด์ของคลัสเตอร์ที่กำหนดและคือระยะทางกำลังสอง I=∑i(d(i,cr))crd
ตอนนี้สูตรของสถิติช่องว่างเกี่ยวข้องกับ
ที่คือผลรวมของระยะทางระหว่างจุด Squared ทั้งหมดในคลัสเตอร์R
Wk=∑r=1k1(2∗nr)Dr
Drr
ด้วยการแนะนำ ,ในสูตรระยะทางยกกำลังสอง (เป็น centroid ของพิกัดของคลัสเตอร์) ฉันมีคำที่สอดคล้องกับความเฉื่อย (ใน scikit) + คำที่หายไปถ้าแต่ละตัวเป็น barycentre ของแต่ละกลุ่ม (ซึ่งควรอยู่ใน kmeans) ดังนั้นฉันเดาว่าเป็นจริง scikit Inertia+c−ccrcWk
ฉันยังมีสองคำถาม:
- คุณคิดว่าแคลคูลัสของฉันถูกต้องหรือไม่? (ตัวอย่างเช่นฉันไม่รู้ว่าจะเก็บไว้สำหรับการทำคลัสเตอร์แบบลำดับชั้นหรือไม่)
- ถ้าฉันถูกต้องด้านบนฉันได้เขียนรหัสสถิติของช่องว่าง (เนื่องจากความแตกต่างของความเฉื่อยในการบันทึกระหว่างการประมาณและการจัดกลุ่ม) และมันทำงานได้ไม่ดีโดยเฉพาะในชุดข้อมูลของม่านตาใครเคยลองบ้างไหม?