มันค่อนข้างยากที่จะให้วิธีการแก้ปัญหาที่ชัดเจนเกี่ยวกับวิธีการเลือกจำนวน "กลุ่ม" ที่ดีที่สุดในข้อมูลของคุณไม่ว่าจะใช้วิธีการทำคลัสเตอร์แบบใดเนื่องจากการวิเคราะห์กลุ่มพยายามแยกกลุ่มของหน่วยทางสถิติ (ไม่ว่าจะเป็นบุคคลหรือตัวแปร ) เพื่อวัตถุประสงค์ในการสำรวจหรืออธิบาย ดังนั้นคุณต้องตีความผลลัพธ์ของชุดรูปแบบการจัดกลุ่มของคุณและวิธีแก้ไขปัญหาคลัสเตอร์หลายรายการอาจน่าสนใจไม่แพ้กัน
ตอนนี้เกี่ยวกับเกณฑ์ปกติทางสถิติที่ใช้ในการตัดสินใจเมื่อหยุดเพื่อรวมข้อมูลเป็นแฉกโดย @ars มากที่สุดคือเกณฑ์ภาพแนะนำรวมถึงการวิเคราะห์ของ dendrogram หรือการตรวจสอบของโปรไฟล์กลุ่มที่เรียกว่ายังเงาแปลง (Rousseeuw, 1987) . มีการเสนอเกณฑ์เชิงตัวเลขหลายตัวที่รู้จักกันว่าดัชนีความถูกต้องเช่นดัชนีความถูกต้องของดันน์ดัชนีความถูกต้องของเดวีส์ - โบลดินดัชนี C ดัชนีแกมม่าของฮิวเบิร์ต การจัดกลุ่มตามลำดับชั้นมักจะทำงานร่วมกันกับ k- หมายถึง (ในความเป็นจริงหลายกรณีของ k- หมายถึงเพราะมันเป็นอัลกอริทึมสุ่ม) เพื่อที่จะเพิ่มการสนับสนุนการแก้ปัญหาการจัดกลุ่ม ฉันไม่รู้ว่าสิ่งทั้งหมดนี้มีอยู่ใน Python หรือไม่ แต่มีวิธีการมากมายใน R (ดูมุมมองงานของคลัสเตอร์ที่อ้างถึงแล้วโดย @mbq สำหรับคำถามที่เกี่ยวข้องเครื่องมือใดบ้างที่สามารถใช้สำหรับการใช้อัลกอริทึมการจัดกลุ่มบน MovieLens ) วิธีอื่น ๆ รวมถึงการจัดกลุ่มแบบคลุมเครือและการจัดกลุ่มตามแบบจำลอง (หรือเรียกอีกอย่างว่าการวิเคราะห์ลักษณะแฝงในชุมชนไซโครเมท) หากคุณต้องการวิธีที่มีประสิทธิภาพมากขึ้นในการเลือกจำนวนกลุ่มในข้อมูลของคุณ
BTW ฉันเพิ่งมาข้ามนี้หน้าเว็บSciPy คลัสเตอร์ซึ่งเป็นส่วนขยายไปยัง SciPy สำหรับการสร้าง, การแสดงผลและการวิเคราะห์กลุ่มตามลำดับชั้น อาจจะรวมถึงฟังก์ชั่นอื่น ๆ ? ฉันเคยได้ยินPyChemซึ่งเสนอสิ่งที่ดีงามสำหรับการวิเคราะห์หลายตัวแปร
ข้อมูลอ้างอิงต่อไปนี้อาจเป็นประโยชน์:
Steinley, D. , & Brusco, MJ (2008) การเลือกตัวแปรในการวิเคราะห์กลุ่ม: การเปรียบเทียบเชิงประจักษ์ของแปดขั้นตอน Psychometrika , 73 , 125-144