คำตอบของ Sergey มีจุดวิกฤติซึ่งก็คือค่าสัมประสิทธิ์ของเงานั้นจะทำการประเมินคุณภาพของการรวมกลุ่มเพื่อให้บรรลุดังนั้นคุณควรเลือกจำนวนของกลุ่มที่เพิ่มสัมประสิทธิ์ของเงาให้ได้มากที่สุด
คำตอบยาว ๆ คือวิธีที่ดีที่สุดในการประเมินผลลัพธ์ของความพยายามในการจัดกลุ่มของคุณคือเริ่มจากการตรวจสอบจริง - การตรวจสอบโดยมนุษย์ - กลุ่มที่เกิดขึ้นและการตัดสินใจบนพื้นฐานของความเข้าใจในสิ่งที่ข้อมูลแสดงถึง และสิ่งที่การจัดกลุ่มมีจุดประสงค์เพื่อให้บรรลุ
มีวิธีการเชิงปริมาณมากมายในการประเมินผลลัพธ์การจัดกลุ่มซึ่งควรใช้เป็นเครื่องมือโดยมีความเข้าใจอย่างเต็มที่ถึงข้อ จำกัด พวกเขามีแนวโน้มที่จะใช้งานง่ายในธรรมชาติและมีเสน่ห์ตามธรรมชาติ (เช่นปัญหาการจัดกลุ่มโดยทั่วไป)
ตัวอย่าง: มวล / รัศมี / ความหนาแน่นการรวมตัวหรือการแยกระหว่างกลุ่มเป็นต้นแนวคิดเหล่านี้มักจะรวมกันเช่นอัตราส่วนของการแยกต่อการรวมกันควรมีขนาดใหญ่ถ้าการจัดกลุ่มสำเร็จ
วิธีการวัดการจัดกลุ่มจะแจ้งให้ทราบตามประเภทของอัลกอริทึมการจัดกลุ่มที่ใช้ ตัวอย่างเช่นการวัดคุณภาพของอัลกอริธึมการจัดกลุ่มที่สมบูรณ์ (ซึ่งทุกจุดถูกใส่เข้าไปในกลุ่ม) อาจแตกต่างจากการวัดคุณภาพของอัลกอริทึมการจัดกลุ่มแบบฟัซซี่แบบอิงเกณฑ์ (ซึ่งในบางประเด็นอาจถูกยกเลิกการจัดกลุ่ม )
ค่าสัมประสิทธิ์เงาเป็นหนึ่งในมาตรการดังกล่าว มันทำงานได้ดังต่อไปนี้:
สำหรับแต่ละจุด p ก่อนอื่นให้หาระยะห่างเฉลี่ยระหว่าง p และจุดอื่น ๆ ทั้งหมดในกลุ่มเดียวกัน (นี่คือการวัดการเชื่อมโยงเรียกว่า A) จากนั้นหาระยะทางเฉลี่ยระหว่าง p และจุดทั้งหมดในคลัสเตอร์ที่ใกล้ที่สุด (นี่คือการวัดระยะห่างจากคลัสเตอร์อื่นที่ใกล้เคียงที่สุดเรียกมันว่า B) สัมประสิทธิ์ภาพเงาสำหรับ p ถูกกำหนดให้เป็นความแตกต่างระหว่าง B และ A หารด้วยค่าที่มากกว่าของทั้งสอง (สูงสุด (A, B))
เราประเมินค่าสัมประสิทธิ์กลุ่มของแต่ละจุดและจากนี้เราสามารถรับค่าสัมประสิทธิ์กลุ่มโดยรวมของ
โดยสังหรณ์ใจเราพยายามวัดช่องว่างระหว่างกลุ่ม หากการรวมกลุ่มเป็นสิ่งที่ดี (A มีขนาดเล็ก) และการแยกกลุ่มเป็นสิ่งที่ดี (B มีขนาดใหญ่) ตัวเศษจะมีขนาดใหญ่เป็นต้น
ฉันได้สร้างตัวอย่างที่นี่เพื่อแสดงให้เห็นถึงกราฟิกนี้
ในแปลงเหล่านี้ข้อมูลเดียวกันถูกพล็อตห้าครั้ง สีบ่งบอกถึงกลุ่มที่สร้างขึ้นโดยการจัดกลุ่ม k-mean ด้วย k = 1,2,3,4,5 นั่นคือฉันได้บังคับใช้อัลกอริทึมการจัดกลุ่มเพื่อแบ่งข้อมูลออกเป็น 2 กลุ่มจากนั้น 3 และอื่น ๆ และวาดกราฟตามสี
พล็อตภาพเงาแสดงให้เห็นว่าค่าสัมประสิทธิ์ภาพเงาสูงที่สุดเมื่อ k = 3 แสดงว่าเป็นจำนวนที่เหมาะสมที่สุดของกลุ่ม ในตัวอย่างนี้เราโชคดีที่สามารถเห็นภาพข้อมูลและเราอาจเห็นด้วยว่ากลุ่มที่สามจับการแบ่งส่วนของชุดข้อมูลนี้ได้ดีที่สุด
หากเราไม่สามารถมองเห็นข้อมูลอาจเป็นเพราะมิติที่สูงกว่าพล็อตภาพเงาจะยังคงให้คำแนะนำแก่เรา อย่างไรก็ตามฉันหวังว่าคำตอบที่ยืดเยื้อของฉันที่นี่ยังทำให้ประเด็นที่ "คำแนะนำ" นี้อาจไม่เพียงพอหรือผิดพลาดในบางสถานการณ์