ค่าที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร


25

ฉันทำการวิเคราะห์ข้อมูลพยายามจัดกลุ่มข้อมูลตามยาวโดยใช้ R และแพ็คเกจkml ข้อมูลของฉันมีวิถีโคจรประมาณ 400 คน (ตามที่เรียกในกระดาษ) คุณสามารถเห็นผลลัพธ์ของฉันในภาพต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

หลังจากอ่านบทที่ 2.2 "การเลือกจำนวนกลุ่มที่เหมาะสม" ในเอกสารที่เกี่ยวข้องฉันไม่ได้รับคำตอบใด ๆ ฉันต้องการมี 3 กลุ่ม แต่ผลลัพธ์จะยังคงตกลงกับ CH ของ 80 ที่จริงฉันยังไม่รู้ว่าค่า CH หมายถึงอะไร

ดังนั้นคำถามของฉันค่าเกณฑ์ที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร


อิมเมจของโซลูชันคลัสเตอร์ของคุณมาจาก SPSS หรือไม่ เป็นไปได้หรือไม่ที่จะนับเกณฑ์ CH นี้ใน SPSS ขอบคุณ! :) b
berbelein

ยินดีต้อนรับสู่เว็บไซต์ @berbelein นี่ไม่ใช่คำตอบสำหรับคำถามของ OP โปรดใช้ฟิลด์ "คำตอบของคุณ" เพื่อให้คำตอบเท่านั้น หากคุณมีคำถามของคุณเองให้คลิกที่[ASK QUESTION]คำถามนั้นเราจะช่วยคุณได้อย่างถูกต้อง เนื่องจากคุณใหม่ที่นี่คุณอาจต้องการเข้าชมทัวร์ของเราซึ่งมีข้อมูลสำหรับผู้ใช้ใหม่
gung - Reinstate Monica

@berbelein รูปมาจาก R.
greg121

คำตอบ:


40

มีบางสิ่งที่เราควรระวัง

  • ชอบเกณฑ์การจัดกลุ่มภายในส่วนใหญ่ Calinski-Harabasz เป็นอุปกรณ์แบบฮิวริสติก วิธีที่เหมาะสมในการใช้งานคือการเปรียบเทียบโซลูชันการจัดกลุ่มที่ได้รับจากข้อมูลเดียวกัน - โซลูชันที่แตกต่างกันตามจำนวนกลุ่มหรือวิธีการจัดกลุ่มที่ใช้

  • ไม่มีค่าการตัด "ยอมรับ" คุณเพียงแค่เปรียบเทียบค่า CH ด้วยตา ยิ่งค่ายิ่งสูงเท่าไรก็ยิ่งดีขึ้นเท่านั้น หากในพล็อตบรรทัดของค่า CH มีปรากฏว่าวิธีการแก้ปัญหาหนึ่งให้สูงสุดหรืออย่างน้อยข้อศอกฉับพลันเลือกมัน หากในทางตรงกันข้ามเส้นนั้นเรียบ - แนวนอนหรือขึ้นหรือลง - จากนั้นก็ไม่มีเหตุผลที่จะชอบวิธีอื่น ๆ

  • เกณฑ์ CH ขึ้นอยู่กับอุดมการณ์ของ ANOVA ดังนั้นมันจึงบอกเป็นนัยว่าวัตถุที่เป็นกระจุกนั้นอยู่ในปริภูมิแบบยุคลิดของสเกล (ไม่ใช่ลำดับหรือไบนารีหรือตัวแปร) หากกลุ่มข้อมูลไม่ใช่วัตถุตัวแปร X แต่เป็นเมทริกซ์ของความแตกต่างระหว่างวัตถุดังนั้นการวัดความแตกต่างควรจะเป็น (กำลังสอง) ระยะทางแบบยุคลิด (หรือที่แย่กว่านั้นคือระยะทางตัวชี้วัดอื่น ๆ

  • 1

ลองสังเกตตัวอย่าง ด้านล่างนี้เป็นภาพกระจายของข้อมูลที่ถูกสร้างขึ้นเป็นกระจุกที่กระจายแบบปกติ 5 กลุ่มซึ่งอยู่ใกล้กันมาก

ป้อนคำอธิบายรูปภาพที่นี่

ข้อมูลเหล่านี้ถูกทำคลัสเตอร์โดยวิธีการเชื่อมโยงเฉลี่ยแบบลำดับชั้นและโซลูชันคลัสเตอร์ทั้งหมด (การเป็นสมาชิกคลัสเตอร์) จาก 15 คลัสเตอร์ถึงโซลูชัน 2 คลัสเตอร์ จากนั้นจะใช้เกณฑ์การจัดกลุ่มสองแบบเพื่อเปรียบเทียบโซลูชันและเลือกเกณฑ์ "ดีกว่า" หากมี

ป้อนคำอธิบายรูปภาพที่นี่

วางแผนสำหรับ Calinski-Harabasz อยู่ทางซ้าย เราจะเห็นว่า - ในตัวอย่างนี้ - CH ระบุถึงโซลูชัน 5 คลัสเตอร์ (ที่มีชื่อว่า CLU5_1) อย่างชัดเจนว่าเป็นโซลูชันที่ดีที่สุด พล็อตสำหรับเกณฑ์การจัดกลุ่มอื่น C-Index (ซึ่งไม่ได้ขึ้นอยู่กับอุดมการณ์ ANOVA และเป็นสากลในการประยุกต์ใช้มากกว่า CH) อยู่ทางด้านขวา สำหรับ C-Index ค่าที่ต่ำกว่าหมายถึงโซลูชันที่ "ดีกว่า" ตามที่พล็อตแสดงให้เห็นว่าโซลูชัน 15 คลัสเตอร์นั้นดีที่สุดอย่างเป็นทางการ แต่โปรดจำไว้ว่าเกณฑ์การจัดกลุ่มที่มีความทนทานภูมิประเทศเป็นสิ่งสำคัญในการตัดสินใจมากกว่าขนาดตัวเอง โปรดสังเกตว่ามีข้อศอกที่โซลูชัน 5 คลัสเตอร์; โซลูชัน 5 คลัสเตอร์ยังคงค่อนข้างดีในขณะที่โซลูชัน 4 หรือ 3 คลัสเตอร์ลดลงโดย leaps เนื่องจากโดยปกติแล้วเราต้องการได้รับ "ทางออกที่ดีกว่าโดยมีกลุ่มน้อยลง" ตัวเลือกของโซลูชัน 5 คลัสเตอร์นั้นดูเหมือนจะสมเหตุสมผลในการทดสอบ C-Index เช่นกัน

ป.ล. โพสต์นี้ยังนำคำถามที่ว่าเราควรจะไว้วางใจมากที่สุดสูงสุด (หรือขั้นต่ำ) ของเกณฑ์การจัดกลุ่มหรือมากกว่าภูมิทัศน์ของพล็อตของค่า


1 ในทางปฏิบัติจริงเช่นเดียวกับโครงร่างที่ดี "ดินสอในกรณี" ผล); ที่ไม่เกี่ยวข้องกับความเอนเอียงของเกณฑ์การจัดกลุ่ม

ภาพรวมของเกณฑ์การจัดกลุ่มภายในและวิธีการใช้


ผู้อ่านอาจต้องการดูคำถามstats.stackexchange.com/q/242360/3277เช่นกัน
ttnphns

ฉันได้ติดตั้งเกณฑ์การตรวจสอบการทำคลัสเตอร์ให้เป็นที่นิยมมากที่สุดสำหรับ SPSS - โปรดเยี่ยมชมหน้าเว็บคอลเลกชันของฉัน "เกณฑ์การจัดกลุ่ม"
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.