หากคุณสุ่มแบ่งกลุ่มตัวอย่างออกเป็น 5 subsamples 5 ของคุณหมายความว่าเกือบจะเหมือนกัน ความรู้สึกของการทำจุดปิดดังกล่าวเป็นศูนย์คลัสเตอร์เริ่มต้นคืออะไร?
ในการใช้งาน K- หมายถึงการเลือกเริ่มต้นของศูนย์คลัสเตอร์เริ่มต้นขึ้นอยู่กับแนวคิดที่ตรงกันข้าม: เพื่อค้นหา 5 คะแนนซึ่งอยู่ไกลที่สุดและทำให้เป็นศูนย์เริ่มต้น คุณอาจถามว่าอะไรจะเป็นวิธีการค้นหาจุดที่ห่างไกลเหล่านั้น? นี่คือสิ่งที่ K-Mean 'ทำเพื่อ:
ใช้k cases (points) ใด ๆของชุดข้อมูลเป็นศูนย์เริ่มต้น กรณีส่วนที่เหลือทั้งหมดจะถูกตรวจสอบความสามารถในการเปลี่ยนเป็นศูนย์เริ่มต้นตามเงื่อนไขต่อไปนี้:
- a) หากกรณีนั้นอยู่ห่างจากจุดศูนย์กลางที่อยู่ใกล้ที่สุดมากกว่าระยะห่างระหว่างสองจุดที่อยู่ใกล้กันมากที่สุดจุดกึ่งกลางของคดีจะเข้ามาแทนที่จุดกึ่งกลางของจุดสองหลังซึ่งอยู่ใกล้ที่สุด
- b) หากกรณีนั้นอยู่ห่างจากจุดศูนย์กลางที่ 2 ซึ่งอยู่ใกล้ที่สุดไปกว่าระยะห่างระหว่างจุดกึ่งกลางที่อยู่ใกล้ที่สุดกับจุดกึ่งกลางที่อยู่ใกล้จุดหลังที่สุดกรณีนี้จะแทนที่จุดกึ่งกลางที่อยู่ใกล้ที่สุด
หากเงื่อนไข (a) ไม่เป็นที่พอใจจะมีการตรวจสอบเงื่อนไข (b) หากไม่เป็นที่พอใจทั้งกรณีจะไม่กลายเป็นศูนย์กลาง จากผลของการดำเนินการผ่านกรณีดังกล่าวเราได้รับkกรณีสูงสุดในคลาวด์ซึ่งกลายเป็นศูนย์เริ่มต้น ผลที่ได้จากอัลโกนี้ถึงแม้ว่าจะมีความแข็งแกร่งเพียงพอ แต่ก็ไม่ได้มีความรู้สึกไวต่อตัวเลือกเริ่มต้นของ " เคสkใด ๆ" และลำดับการเรียงลำดับของเคสในชุดข้อมูล ดังนั้นหลายคนพยายามเริ่มต้นสุ่มยังคงยินดีให้มันเป็นเสมอกรณีที่มี K-วิธี
ดูคำตอบของฉันพร้อมรายการวิธีการเริ่มต้นยอดนิยมสำหรับวิธีค่า k วิธีการแบ่งเป็นชุดย่อยแบบสุ่ม (ถูกวิพากษ์วิจารณ์ที่นี่โดยฉันและคนอื่น ๆ ) รวมถึงวิธีที่อธิบายโดย SPSS ที่ใช้ - อยู่ในรายการด้วย