การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร


50

ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้:

k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม

ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย

นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM


Spherical หมายถึงเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมที่เหมือนกันสำหรับแต่ละคลัสเตอร์ (สมมติว่ามีการแจกแจงแบบเกาส์) ซึ่งรู้จักกันในชื่อการจัดกลุ่มตามโมเดล คุณคิดว่าแนวทางใดเป็นอุปสรรค
chl

2
มันจะดีถ้าคุณให้แหล่งอ้างอิง
ttnphns

1
k-แปลว่า "สันนิษฐาน" ว่ากระจุกนั้นเป็นทรงกลมที่มากขึ้นหรือน้อยลงและเมฆที่เป็นของแข็ง (ไม่ยืดออกหรือโค้งงอหรือล้อมรอบ) ในพื้นที่ยูคลิด ไม่จำเป็นต้องมาจากการแจกแจงแบบปกติ EM ต้องการมัน (หรือเป็นที่รู้จักอย่างน้อยประเภทการกระจาย)
ttnphns

คำตอบ:


38

K หมายถึง

  1. ฮาร์ดกำหนดจุดข้อมูลให้กับหนึ่งคลัสเตอร์โดยเฉพาะบนการลู่เข้า
  2. มันใช้ประโยชน์จากมาตรฐาน L2 เมื่อทำการออปติไมซ์ (Min {Theta} L2 norm point และพิกัดเซนทรอยด์ของมัน)

EM

  1. ซอฟท์กำหนดจุดให้กับกลุ่ม (ดังนั้นจึงให้ความน่าจะเป็นของจุดใด ๆ ที่เป็นของ centroid ใด ๆ )
  2. มันไม่ได้ขึ้นอยู่กับบรรทัดฐาน L2 แต่ขึ้นอยู่กับความคาดหวังกล่าวคือความน่าจะเป็นของจุดที่อยู่ในกลุ่มใดกลุ่มหนึ่ง สิ่งนี้ทำให้ K-mean มีอคติต่อกระจุกทรงกลม

57

ไม่มี "อัลกอริทึม k-mean" มีอัลกอริทึม MacQueens สำหรับ k-mean, อัลกอริทึม Lloyd / Forgy สำหรับ k-mean, วิธี Hartigan-Wong, ...

นอกจากนี้ยังไม่มี "EM" อัลกอริทึม เป็นรูปแบบทั่วไปของการคาดหวังความน่าจะเป็นซ้ำแล้วจึงเพิ่มรูปแบบให้สูงสุด ตัวแปรที่ได้รับความนิยมมากที่สุดของ EM นั้นรู้จักกันในนาม "Gaussian Mixture Modeling" (GMM) ซึ่งเป็นโมเดลที่มีการแจกแจงแบบเกาส์หลายตัวแปร

หนึ่งสามารถพิจารณาอัลกอริทึม Lloyds เพื่อประกอบด้วยสองขั้นตอน:

  • E-step ซึ่งแต่ละอ็อบเจ็กต์ถูกกำหนดให้กับ centroid เช่นนั้นมันถูกกำหนดให้กับคลัสเตอร์ที่เป็นไปได้มากที่สุด
  • M-step ซึ่งโมเดล (= centroids) ถูกคำนวณใหม่ (= การเพิ่มประสิทธิภาพกำลังสองน้อยสุด)

... วนซ้ำสองขั้นตอนดังที่ทำโดย Lloyd ทำให้สิ่งนี้เป็นตัวอย่างของโครงการ EM ทั่วไป มันแตกต่างจาก GMM ที่:

  • มันใช้การแบ่งพาร์ติชันอย่างหนักนั่นคือแต่ละวัตถุถูกกำหนดให้กับหนึ่งคลัสเตอร์
  • ตัวแบบเป็นเซนทรอยด์เท่านั้นไม่มีการพิจารณาความแปรปรวนร่วมหรือความแปรปรวน

คุณสามารถพัฒนาความแตกต่างเล็กน้อยของ means ได้หรือไม่? ฉันได้ดูอย่างรวดเร็วในองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie, Tibshirani, Friedman), บทที่ 14 ... พวกเขาสนับสนุนความคิดของการดำรงอยู่ของ " -means algorithm" kkk
Elvis

10
หนังสือหลายเล่มมีค่า k เท่ากับค่าเฉลี่ยด้วยอัลกอริทึมลอยด์ แต่เขาไม่เคยเรียกมันว่าค่าเฉลี่ย k MacQueen แนะนำชื่อ k-mean ขออภัย: หนังสือหลายเล่มใช้การตั้งชื่อที่ไม่ถูกต้องที่นี่ k-หมายความว่าเป็นปัญหาลอยด์ทางออกเดียวที่เป็นที่นิยม ในความเป็นจริง R จะใช้ Hartigan-Wong เป็นค่าเริ่มต้นเพื่อแก้ไข kmeans
Anony-Mousse

4

นี่คือตัวอย่างถ้าฉันทำเช่นนี้ใน mplus ซึ่งอาจเป็นประโยชน์และชมเชยคำตอบที่ครอบคลุมมากขึ้น:

ว่าฉันมี 3 ตัวแปรอย่างต่อเนื่องและต้องการระบุกลุ่มตามสิ่งเหล่านี้ ฉันจะระบุรูปแบบผสม (specficially มากขึ้นในกรณีนี้เป็นรูปแบบรายละเอียดที่ซ่อนเร้น) สมมติว่าเป็นอิสระเงื่อนไข (ตัวแปรสังเกตเป็นอิสระให้เป็นสมาชิกคลัสเตอร์) เป็น:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

ฉันจะใช้โมเดลนี้หลาย ๆ ครั้งในแต่ละครั้งที่ระบุจำนวนกลุ่มที่แตกต่างกันและเลือกโซลูชันที่ฉันชอบมากที่สุด (การทำเช่นนี้เป็นหัวข้อที่กว้างใหญ่ในตัวของมันเอง)

หากต้องการรัน k-mean ฉันจะระบุรูปแบบต่อไปนี้:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

ดังนั้นการเป็นสมาชิกของกลุ่มจึงขึ้นอยู่กับระยะทางถึงค่าของตัวแปรที่สังเกตได้ ตามที่ระบุไว้ในคำตอบอื่น ๆ ความแปรปรวนไม่มีอะไรเกี่ยวข้องกับมัน

สิ่งที่ดีเกี่ยวกับการทำสิ่งนี้ใน mplus คือสิ่งเหล่านี้เป็นแบบจำลองที่ซ้อนกันและคุณสามารถทดสอบได้โดยตรงว่าข้อ จำกัด ส่งผลให้แย่ลงหรือไม่นอกเหนือจากความสามารถในการเปรียบเทียบความไม่ลงรอยกันในการจำแนกระหว่างสองวิธี อย่างไรก็ตามทั้งสองโมเดลสามารถประมาณได้โดยใช้อัลกอริทึม EM ดังนั้นความแตกต่างจึงเป็นเรื่องเกี่ยวกับแบบจำลองมากขึ้น

ถ้าคุณคิดว่าในอวกาศ 3 มิติ 3 หมายถึงจุด ... และความแปรปรวนของสามแกนของทรงรีที่วิ่งผ่านจุดนั้น ถ้าความแปรปรวนทั้งสามเหมือนกันคุณจะได้รูปทรงกลม


ขอบคุณสำหรับตัวอย่างนี้ มันช่วยแก้ไขความคิดบางอย่างได้มาก
Myna
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.