มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด
R
) ตรงนี้: stackoverflow.com/a/15376462/1036500
มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด
R
) ตรงนี้: stackoverflow.com/a/15376462/1036500
คำตอบ:
วิธีที่ฉันใช้คือใช้ CCC (เกณฑ์การแบ่งกลุ่มแบบลูกบาศก์) ฉันมองหา CCC เพื่อเพิ่มเป็นจำนวนสูงสุดเมื่อฉันเพิ่มจำนวนของกลุ่ม 1 และจากนั้นสังเกตว่าเมื่อ CCC เริ่มลดลง ณ จุดนี้ฉันใช้จำนวนกลุ่มที่สูงสุด (ท้องถิ่น) นี้จะคล้ายกับการใช้พล็อตหินกรวดเพื่อเลือกจำนวนขององค์ประกอบหลัก
รายงานทางเทคนิคของ SAS เกณฑ์การจัดกลุ่มก้อนคิว A-108 ( pdf )
= จำนวนการสังเกต n k = จำนวนในคลัสเตอร์ k p = จำนวนตัวแปร q = จำนวนกลุ่ม X = n × pเมทริกซ์ข้อมูล M = q × pเมทริกซ์ของคลัสเตอร์หมายถึง Z = ตัวบ่งชี้คลัสเตอร์ ( z i k = 1ถ้า obs .ฉันในคลัสเตอร์ k , 0 เป็นอย่างอื่น)
สมมติว่าตัวแปรแต่ละตัวมีค่าเฉลี่ย 0:
, M = ( Z ′ Z ) - 1 Z ′ X
(รวม) เมทริกซ์ = T = X ′ X S S (ระหว่างกลุ่ม) เมทริกซ์ = B = M ′ Z ′ Z M S S (ภายในกลุ่ม) เมทริกซ์ = W = T - B
(ติดตาม = ผลรวมขององค์ประกอบเส้นทแยงมุม)
คอลัมน์สแต็กของเป็นหนึ่งคอลัมน์ยาว
ถอยหลังจากผลิตภัณฑ์ Kroneckerของ
ด้วย p × p identity matrix
คำนวณ R 2สำหรับการถดถอยนี้ - R 2เดียวกัน
แนวคิด CCC คือการเปรียบเทียบคุณได้รับสำหรับกลุ่มชุดที่กำหนดกับR 2 ที่คุณจะได้รับโดยการจัดกลุ่มชุดของจุดกระจายแบบสม่ำเสมอในพื้นที่มิติp