มีบางสิ่งที่เราควรระวัง
ชอบเกณฑ์การจัดกลุ่มภายในส่วนใหญ่ Calinski-Harabasz เป็นอุปกรณ์แบบฮิวริสติก วิธีที่เหมาะสมในการใช้งานคือการเปรียบเทียบโซลูชันการจัดกลุ่มที่ได้รับจากข้อมูลเดียวกัน - โซลูชันที่แตกต่างกันตามจำนวนกลุ่มหรือวิธีการจัดกลุ่มที่ใช้
ไม่มีค่าการตัด "ยอมรับ" คุณเพียงแค่เปรียบเทียบค่า CH ด้วยตา ยิ่งค่ายิ่งสูงเท่าไรก็ยิ่งดีขึ้นเท่านั้น หากในพล็อตบรรทัดของค่า CH มีปรากฏว่าวิธีการแก้ปัญหาหนึ่งให้สูงสุดหรืออย่างน้อยข้อศอกฉับพลันเลือกมัน หากในทางตรงกันข้ามเส้นนั้นเรียบ - แนวนอนหรือขึ้นหรือลง - จากนั้นก็ไม่มีเหตุผลที่จะชอบวิธีอื่น ๆ
เกณฑ์ CH ขึ้นอยู่กับอุดมการณ์ของ ANOVA ดังนั้นมันจึงบอกเป็นนัยว่าวัตถุที่เป็นกระจุกนั้นอยู่ในปริภูมิแบบยุคลิดของสเกล (ไม่ใช่ลำดับหรือไบนารีหรือตัวแปร) หากกลุ่มข้อมูลไม่ใช่วัตถุตัวแปร X แต่เป็นเมทริกซ์ของความแตกต่างระหว่างวัตถุดังนั้นการวัดความแตกต่างควรจะเป็น (กำลังสอง) ระยะทางแบบยุคลิด (หรือที่แย่กว่านั้นคือระยะทางตัวชี้วัดอื่น ๆ
1
ลองสังเกตตัวอย่าง ด้านล่างนี้เป็นภาพกระจายของข้อมูลที่ถูกสร้างขึ้นเป็นกระจุกที่กระจายแบบปกติ 5 กลุ่มซึ่งอยู่ใกล้กันมาก
ข้อมูลเหล่านี้ถูกทำคลัสเตอร์โดยวิธีการเชื่อมโยงเฉลี่ยแบบลำดับชั้นและโซลูชันคลัสเตอร์ทั้งหมด (การเป็นสมาชิกคลัสเตอร์) จาก 15 คลัสเตอร์ถึงโซลูชัน 2 คลัสเตอร์ จากนั้นจะใช้เกณฑ์การจัดกลุ่มสองแบบเพื่อเปรียบเทียบโซลูชันและเลือกเกณฑ์ "ดีกว่า" หากมี
วางแผนสำหรับ Calinski-Harabasz อยู่ทางซ้าย เราจะเห็นว่า - ในตัวอย่างนี้ - CH ระบุถึงโซลูชัน 5 คลัสเตอร์ (ที่มีชื่อว่า CLU5_1) อย่างชัดเจนว่าเป็นโซลูชันที่ดีที่สุด พล็อตสำหรับเกณฑ์การจัดกลุ่มอื่น C-Index (ซึ่งไม่ได้ขึ้นอยู่กับอุดมการณ์ ANOVA และเป็นสากลในการประยุกต์ใช้มากกว่า CH) อยู่ทางด้านขวา สำหรับ C-Index ค่าที่ต่ำกว่าหมายถึงโซลูชันที่ "ดีกว่า" ตามที่พล็อตแสดงให้เห็นว่าโซลูชัน 15 คลัสเตอร์นั้นดีที่สุดอย่างเป็นทางการ แต่โปรดจำไว้ว่าเกณฑ์การจัดกลุ่มที่มีความทนทานภูมิประเทศเป็นสิ่งสำคัญในการตัดสินใจมากกว่าขนาดตัวเอง โปรดสังเกตว่ามีข้อศอกที่โซลูชัน 5 คลัสเตอร์; โซลูชัน 5 คลัสเตอร์ยังคงค่อนข้างดีในขณะที่โซลูชัน 4 หรือ 3 คลัสเตอร์ลดลงโดย leaps เนื่องจากโดยปกติแล้วเราต้องการได้รับ "ทางออกที่ดีกว่าโดยมีกลุ่มน้อยลง" ตัวเลือกของโซลูชัน 5 คลัสเตอร์นั้นดูเหมือนจะสมเหตุสมผลในการทดสอบ C-Index เช่นกัน
ป.ล. โพสต์นี้ยังนำคำถามที่ว่าเราควรจะไว้วางใจมากที่สุดสูงสุด (หรือขั้นต่ำ) ของเกณฑ์การจัดกลุ่มหรือมากกว่าภูมิทัศน์ของพล็อตของค่า
1 ในทางปฏิบัติจริงเช่นเดียวกับโครงร่างที่ดี "ดินสอในกรณี" ผล); ที่ไม่เกี่ยวข้องกับความเอนเอียงของเกณฑ์การจัดกลุ่ม
ภาพรวมของเกณฑ์การจัดกลุ่มภายในและวิธีการใช้