K-หมายคือไม่ได้เป็นขั้นตอนวิธีการจัดกลุ่มตามระยะทาง
K-หมายถึงค้นหาผลรวมขั้นต่ำของการกำหนดกำลังสองนั่นคือลดความแปรปรวนที่ไม่ปกติ (= total_SS
) โดยการกำหนดจุดให้กับศูนย์คลัสเตอร์
เพื่อให้การ k- หมายถึงการลู่เข้าคุณต้องมีสองเงื่อนไข:
- จุดที่กำหนดใหม่ช่วยลดผลรวมของกำลังสอง
- การคำนวณค่าเฉลี่ยใหม่จะช่วยลดผลรวมของกำลังสอง
เนื่องจากมีชุดค่าผสมจำนวน จำกัด เท่านั้นคุณจึงไม่สามารถลดค่านี้ได้อย่างไม่มีที่สิ้นสุดและอัลกอริทึมจะต้องมาบรรจบกันในบางจุดเพื่อให้เกิดความเหมาะสมในพื้นที่
∑i(xi−μji)2j. ในทางคณิตศาสตร์การกำหนดโดยผลรวมของกำลังสองน้อยที่สุดเท่ากับการกำหนดโดยการปิดระยะทางแบบยุคลิดแบบสแควร์ซึ่ง (ถ้าคุณเสียรอบการทำงานของ CPU สำหรับการคำนวณsqrt
) เท่ากับการกำหนดระยะทางแบบยุคลิดน้อยที่สุด ดังนั้นสัญชาตญาณของการกำหนดแต่ละจุดให้ใกล้เคียงที่สุดนั้นถูกต้อง แต่ไม่ใช่สิ่งที่ปัญหาการทำให้เกิดประโยชน์สูงสุดนั้น
between_SS
อาจเป็นผลรวมน้ำหนักของกำลังสองระหว่างสองวิธีในการวัดว่าศูนย์คลัสเตอร์แยกกันได้ดีเพียงใด (หมายเหตุ: ศูนย์คลัสเตอร์จะไม่เปรียบเทียบคลัสเตอร์จริง - ในทางเทคนิคเซลล์ Voronoi สัมผัสกับเพื่อนบ้านของเซลล์ Voronoi)
โปรดทราบว่าด้วย k- หมายถึงคุณสามารถปรับปรุงคุณภาพการทำคลัสเตอร์ที่ไร้เดียงสาได้โดยการเพิ่ม k คุณภาพที่วัดได้ที่นี่เป็นค่าทางคณิตศาสตร์ซึ่งอาจไม่ตรงกับความต้องการของผู้ใช้ ไอริสเป็นตัวอย่างที่ดีมากโดยที่ค่าเฉลี่ยของ k นั้นหมายถึงผลลัพธ์ที่น่าพอใจน้อยกว่าแม้ว่าจะได้รับข้อมูลจากภายนอกว่าควรมี 3 กลุ่มอย่างแน่นอน
ถ้าคุณต้องการเปลี่ยนแปลงระยะ-based ของ K-วิธีการดูที่K-medoids การบรรจบกันที่นี่สามารถมั่นใจได้โดยการเปลี่ยนค่าเฉลี่ยด้วย medoid:
- แต่ละวัตถุถูกกำหนดให้กับคลัสเตอร์ที่ใกล้ที่สุด (โดยการวัดระยะทางโดยพลการ)
- ศูนย์ของคลัสเตอร์นั้นได้รับการปรับปรุงให้เป็นวัตถุกลางที่สำคัญที่สุดของกลุ่มกล่าวคือระยะทางเฉลี่ยที่น้อยที่สุดสำหรับกลุ่มอื่น ๆ
ในแต่ละขั้นตอนผลรวมของระยะทางจะลดลง มีการรวมกันจำนวน จำกัด ดังนั้นอัลกอริทึมจะต้องยุติอย่างน้อยที่สุดในระดับท้องถิ่น