วิธีกำหนดจำนวนกลุ่มใน K-หมายถึงการจัดกลุ่ม?


19

มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด


1
@berkay คุณจะกำหนดอัตราข้อผิดพลาดสำหรับวิธีที่ไม่ได้รับการสำรองนี้ได้อย่างไร (หรือคุณหมายถึงภายในเอสเอส?)
CHL

@chl, ฉันสามารถใช้ผลรวมของข้อผิดพลาดกำลังสองสำหรับทุกกลุ่มหรือความแม่นยำโดยรวม (ในกรณีนี้ฉันรู้เลเบลของคลาส)
berkay

3
@berkay อัลกอริธึมที่ง่ายสำหรับการค้นหา No. clusters คือการคำนวณ WSS เฉลี่ยสำหรับการรัน k-mean 20 ครั้งบนจำนวนที่เพิ่มขึ้นของ clusters (เริ่มจาก 2 และลงท้ายด้วย 9 หรือ 10) และเก็บโซลูชันที่มี WSS น้อยที่สุดในชุดนี้ อีกวิธีหนึ่งคือสถิติ Gap แต่ถ้าคุณมีอินสแตนซ์ที่มีป้ายกำกับอยู่แล้วเหตุใดคุณจึงลองใช้วิธีที่ไม่ได้รับการสนับสนุน
chl

@chl ขอบคุณคำถามที่ดีเราสามารถเดากลุ่มขึ้นอยู่กับคุณสมบัติของความตั้งใจฉันวิเคราะห์ลักษณะการบุกรุกใหม่เลียนแบบการใช้งานทางกฎหมาย
berkay

2
ฉันตอบคำถามที่คล้ายกันด้วยวิธีครึ่งโหล (โดยใช้R) ตรงนี้: stackoverflow.com/a/15376462/1036500
Ben

คำตอบ:


8

วิธีที่ฉันใช้คือใช้ CCC (เกณฑ์การแบ่งกลุ่มแบบลูกบาศก์) ฉันมองหา CCC เพื่อเพิ่มเป็นจำนวนสูงสุดเมื่อฉันเพิ่มจำนวนของกลุ่ม 1 และจากนั้นสังเกตว่าเมื่อ CCC เริ่มลดลง ณ จุดนี้ฉันใช้จำนวนกลุ่มที่สูงสุด (ท้องถิ่น) นี้จะคล้ายกับการใช้พล็อตหินกรวดเพื่อเลือกจำนวนขององค์ประกอบหลัก


รายงานทางเทคนิคของ SAS เกณฑ์การจัดกลุ่มก้อนคิว A-108 ( pdf )

= จำนวนการสังเกต n k = จำนวนในคลัสเตอร์ k p = จำนวนตัวแปร q = จำนวนกลุ่ม X = n × pเมทริกซ์ข้อมูล M = q × pเมทริกซ์ของคลัสเตอร์หมายถึง Z = ตัวบ่งชี้คลัสเตอร์ ( z i k = 1ถ้า obs .ฉันในคลัสเตอร์ k , 0 เป็นอย่างอื่น) n
nkk
p
q
Xn×p
Mq×p
Zzik=1ik

สมมติว่าตัวแปรแต่ละตัวมีค่าเฉลี่ย 0:
, M = ( Z Z ) - 1 Z XZZ=diag(n1,,nq)M=(ZZ)1ZX

(รวม) เมทริกซ์ = T = X X S S (ระหว่างกลุ่ม) เมทริกซ์ = B = M Z Z M S S (ภายในกลุ่ม) เมทริกซ์ = W = T - BSSTXX
SSBMZZM
SSWTB

(ติดตาม = ผลรวมขององค์ประกอบเส้นทแยงมุม)R2=1trace(W)trace(T)

คอลัมน์สแต็กของเป็นหนึ่งคอลัมน์ยาว ถอยหลังจากผลิตภัณฑ์ KroneckerของX
ด้วย p × p identity matrix คำนวณ R 2สำหรับการถดถอยนี้ - R 2เดียวกันZp×p
R2R2

แนวคิด CCC คือการเปรียบเทียบคุณได้รับสำหรับกลุ่มชุดที่กำหนดกับR 2 ที่คุณจะได้รับโดยการจัดกลุ่มชุดของจุดกระจายแบบสม่ำเสมอในพื้นที่มิติpR2R2p


2
มีเกณฑ์อื่น ๆ นอกเหนือจาก CCC ดูที่การพิจารณาจำนวนกลุ่มในชุดข้อมูลเพื่อดูกลุ่มหลัก
Vincent Labatut
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.