มีอัลกอริทึมการจัดกลุ่มตามระยะทางใด ๆ หรือไม่?


14

ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่


2
คุณจะหมายถึงอะไรโดย "การจัดกลุ่ม" โดยไม่มีวิธีการหาจำนวนความคล้ายคลึงกันหรือ "ความใกล้ชิด" ของคะแนน
whuber

2
@ คำตอบของทิมด้านล่างนั้นดีมาก คุณอาจต้องการพิจารณาการถอนเงิน & / หรือการยอมรับหากมันช่วยคุณได้ มันเป็นวิธีที่ดีที่จะพูดว่า 'ขอบคุณ' ขยายความคิดของเขามีการวิเคราะห์กลุ่มแฝงซึ่งใช้วิธีการคล้ายกับข้อมูลเด็ดขาด วิธีการแบบไม่อิงพารามิเตอร์ต่อ FMM สามารถใช้ผ่านความสูงของการประมาณความหนาแน่นของเคอร์เนลหลายตัวแปร ดูการจัดกลุ่มผ่านการประมาณความหนาแน่นแบบไม่มีพารามิเตอร์: The R Package pdfCluster ( pdf ) สำหรับข้อมูลเพิ่มเติม
gung - Reinstate Monica

คำตอบ:


25

ตัวอย่างหนึ่งของวิธีการดังกล่าวคือโมเดลไฟไนต์มิกซ์ (เช่นที่นี่หรือที่นี่ ) ที่ใช้สำหรับการทำคลัสเตอร์ ใน FMM คุณพิจารณาการกระจาย ( ) ของตัวแปรของคุณเป็นส่วนผสมของการแจกแจง ( ):X K 1 , . . , f kfXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

โดยที่เป็นเวกเตอร์ของพารามิเตอร์และเป็นสัดส่วนของการกระจาย th ในส่วนผสมและเป็นพารามิเตอร์ ( หรือพารามิเตอร์) ของการแจกแจงθ = ( π ' , θ ' 1 , . . . , θ ' k ) ' π k k θ k kϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

กรณีเฉพาะสำหรับข้อมูลที่ไม่ต่อเนื่องคือการวิเคราะห์ระดับแฝง (เช่นที่นี่ ) กำหนดเป็น:

P(x,k)=P(k)P(x|k)

ที่ความน่าจะเป็นในการสังเกตระดับแฝง (เช่น )คือน่าจะเป็นของการสังเกตคุณค่าและเป็นที่น่าจะเป็นของอยู่ในระดับkk π k P ( x ) x P ( x | k ) x kP(k)kπkP(x)xP(x|k)xk

โดยปกติจะใช้ทั้งอัลกอริธึม FMM และ LCA EMเพื่อการประมาณค่า แต่วิธีการแบบเบย์ก็เป็นไปได้ แต่มีความต้องการเพิ่มขึ้นเล็กน้อยเนื่องจากปัญหาเช่นการระบุรูปแบบและการสลับฉลาก (เช่นบล็อกของซีอาน )

ดังนั้นจึงไม่มีการวัดระยะทาง แต่เป็นแบบจำลองทางสถิติที่กำหนดโครงสร้าง (การกระจาย) ของข้อมูลของคุณ เนื่องจากชื่ออื่นของวิธีนี้คือ "การจัดกลุ่มตามโมเดล"

ตรวจสอบหนังสือสองเล่มเกี่ยวกับ FMM:

มากที่สุดแห่งหนึ่งแพคเกจการจัดกลุ่มยอดนิยมที่ใช้ FMM เป็นmclust(ตรวจสอบที่นี่หรือที่นี่ ) ที่ถูกนำมาใช้ในการวิจัย แต่มีความซับซ้อนมากขึ้นของ FMM ยังเป็นไปได้ตรวจสอบตัวอย่างเช่นflexmixแพคเกจและมันของเอกสาร สำหรับ LCA มี R แพคเกจ POLCA


คุณมีความรู้สึกที่ดีว่ากรณีการใช้งานที่แตกต่างกันอาจจะเป็นอย่างไร
shadowtalker

เช่นเดียวกับใน "เมื่อฉันควรใช้สิ่งนี้แทนพูดว่าการแบ่งรอบยาเม็ด?" คำตอบที่ดีมากอยู่แล้ว
shadowtalker

1
@Caveman บันทึกมันเป็นเพียงการประชุมสัญกรณ์ มันคือเวกเตอร์ของเวกเตอร์, นั่นคือทั้งหมด
ทิม

1
@caveman มีที่แตกต่างกันกระจาย1 , . . , kที่อยู่ในส่วนผสมแต่ละของพวกเขาที่มีพารามิเตอร์ของตัวเอง (นั่นคือเหตุผลที่เรามีพาหะของพารามิเตอร์) k f1,...,fk
ทิม

1
@Caveman กรณีที่พบบ่อยที่สุดคือคุณมีเช่นการแจกแจงแบบปกติด้วยวิธีการต่าง ๆ และ sd แต่พวกมันสามารถแตกต่างกันได้ดูตัวอย่าง 3.1 ในcran.r-project.org/web/packages/flexmix/vignettes/…ที่แสดงตัวแบบการถดถอยสองแบบผสมกัน k
ทิม

7

มีมากมายเป็นตารางตามแนวทางการจัดกลุ่ม พวกมันไม่คำนวณระยะทางเพราะมันมักจะให้ผลแบบสมการกำลังสอง แต่จะแบ่งพาร์ติชันข้อมูลและรวมเข้าไปในกริดเซลล์แทน แต่ปรีชาที่อยู่เบื้องหลังวิธีการดังกล่าวมักจะเกี่ยวข้องอย่างใกล้ชิดกับระยะทาง

มีอัลกอริธึมการจัดกลุ่มจำนวนมากสำหรับข้อมูลที่จัดหมวดหมู่เช่น COOLCAT และ STUCCO ระยะทางไม่ใช่เรื่องง่ายที่จะใช้กับข้อมูลดังกล่าว (การเข้ารหัสแบบจุดเดียวคือการแฮกและไม่ให้ระยะทางที่มีความหมายมากนัก) แต่ฉันไม่เคยได้ยินใครใช้อัลกอริทึมเหล่านี้ ...

มีวิธีการจัดกลุ่มสำหรับกราฟ แต่ไม่ว่าจะลดปัญหากราฟคลาสสิกเช่นการค้นหากลุ่มหรือกลุ่มใกล้เคียงและการระบายสีกราฟหรือพวกเขามีการเชื่อมต่ออย่างใกล้ชิดกับการจัดกลุ่มตามระยะทาง (ถ้าคุณมีกราฟถ่วงน้ำหนัก)

การจัดกลุ่มตามความหนาแน่นเช่น DBSCAN มีชื่อแตกต่างกันและไม่ได้มุ่งเน้นที่การลดระยะทางให้สั้นที่สุด แต่โดยปกติแล้วจะมีการระบุ "ความหนาแน่น" ด้วยความเคารพต่อระยะทางดังนั้นอัลกอริธึมเหล่านี้จึงเป็นไปตามระยะทางหรือตามกริด

ส่วนสำคัญของคำถามที่คุณทิ้งไว้คือข้อมูลของคุณ ?


1
+1: ฉันขอขอบคุณที่คุณแสดงให้เห็นว่าอัลกอริทึมการจัดกลุ่มใดใช้ความรู้สึกแบบ "ทาง" หรือ "ความคล้ายคลึงกัน" แบบนัยโดยนัย
whuber

ฉันคิดว่าโดย "อิงตามระยะทาง" เขาหมายถึงตัวชี้วัดความคล้ายคลึงกันซึ่งจะรวมถึงความแปรปรวน
en1

1
ทำไมความแปรปรวนถึงเป็นความคล้ายคลึงกัน มันเกี่ยวข้องกับระยะทางแบบยุคลิดสแควร์ แต่ไม่เทียบเท่ากับระยะทางพลs
จบแล้ว - Anony-Mousse

2

นอกจากนี้คำตอบที่ดีก่อนหน้านี้ผมจะขอแนะนำให้พิจารณารูปแบบผสม Dirichletและคชกรรมตามลำดับชั้น Dirichlet รุ่นกระบวนการ สำหรับภาพรวมค่อนข้างครอบคลุมและทั่วไปของแนวทางและวิธีการกำหนดจำนวนที่เหมาะสมของกลุ่มโปรดดูคำตอบที่ดีเยี่ยมนี้ในStackOverflow : /programming//a/15376462/2872891


2

วิธีการจำแนกหมดจดเป็น"regularized สูงสุดข้อมูล" alโดยโกเมส, ไม่มีความคิดเรื่องความเหมือน / ระยะทางที่เกี่ยวข้อง

ความคิดคือการมีการถดถอยโลจิสติกเช่นรูปแบบที่ทำให้คะแนนลงในถังขยะ แต่แทนที่จะฝึกอบรมเพื่อเพิ่มความน่าจะเป็นในการบันทึกรูปแบบของคลาสให้สูงขึ้นฟังก์ชั่นวัตถุประสงค์คือสิ่งที่ทำให้คะแนนในกลุ่มที่แตกต่างกัน

λ

การขยายไปยังวิธีเคอร์เนลหรือเครือข่ายนิวรัลสำหรับการทำคลัสเตอร์ที่ไม่ใช่เชิงเส้นนั้นเป็นสิ่งที่ไม่ซับซ้อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.