ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่
ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่
คำตอบ:
ตัวอย่างหนึ่งของวิธีการดังกล่าวคือโมเดลไฟไนต์มิกซ์ (เช่นที่นี่หรือที่นี่ ) ที่ใช้สำหรับการทำคลัสเตอร์ ใน FMM คุณพิจารณาการกระจาย ( ) ของตัวแปรของคุณเป็นส่วนผสมของการแจกแจง ( ):X K ฉ1 , . . , f k
โดยที่เป็นเวกเตอร์ของพารามิเตอร์และเป็นสัดส่วนของการกระจาย th ในส่วนผสมและเป็นพารามิเตอร์ ( หรือพารามิเตอร์) ของการแจกแจงθ = ( π ' , θ ' 1 , . . . , θ ' k ) ' π k k θ k ฉk
กรณีเฉพาะสำหรับข้อมูลที่ไม่ต่อเนื่องคือการวิเคราะห์ระดับแฝง (เช่นที่นี่ ) กำหนดเป็น:
ที่ความน่าจะเป็นในการสังเกตระดับแฝง (เช่น )คือน่าจะเป็นของการสังเกตคุณค่าและเป็นที่น่าจะเป็นของอยู่ในระดับkk π k P ( x ) x P ( x | k ) x k
โดยปกติจะใช้ทั้งอัลกอริธึม FMM และ LCA EMเพื่อการประมาณค่า แต่วิธีการแบบเบย์ก็เป็นไปได้ แต่มีความต้องการเพิ่มขึ้นเล็กน้อยเนื่องจากปัญหาเช่นการระบุรูปแบบและการสลับฉลาก (เช่นบล็อกของซีอาน )
ดังนั้นจึงไม่มีการวัดระยะทาง แต่เป็นแบบจำลองทางสถิติที่กำหนดโครงสร้าง (การกระจาย) ของข้อมูลของคุณ เนื่องจากชื่ออื่นของวิธีนี้คือ "การจัดกลุ่มตามโมเดล"
ตรวจสอบหนังสือสองเล่มเกี่ยวกับ FMM:
มากที่สุดแห่งหนึ่งแพคเกจการจัดกลุ่มยอดนิยมที่ใช้ FMM เป็นmclust
(ตรวจสอบที่นี่หรือที่นี่ ) ที่ถูกนำมาใช้ในการวิจัย แต่มีความซับซ้อนมากขึ้นของ FMM ยังเป็นไปได้ตรวจสอบตัวอย่างเช่นflexmix
แพคเกจและมันของเอกสาร สำหรับ LCA มี R แพคเกจ POLCA
มีมากมายเป็นตารางตามแนวทางการจัดกลุ่ม พวกมันไม่คำนวณระยะทางเพราะมันมักจะให้ผลแบบสมการกำลังสอง แต่จะแบ่งพาร์ติชันข้อมูลและรวมเข้าไปในกริดเซลล์แทน แต่ปรีชาที่อยู่เบื้องหลังวิธีการดังกล่าวมักจะเกี่ยวข้องอย่างใกล้ชิดกับระยะทาง
มีอัลกอริธึมการจัดกลุ่มจำนวนมากสำหรับข้อมูลที่จัดหมวดหมู่เช่น COOLCAT และ STUCCO ระยะทางไม่ใช่เรื่องง่ายที่จะใช้กับข้อมูลดังกล่าว (การเข้ารหัสแบบจุดเดียวคือการแฮกและไม่ให้ระยะทางที่มีความหมายมากนัก) แต่ฉันไม่เคยได้ยินใครใช้อัลกอริทึมเหล่านี้ ...
มีวิธีการจัดกลุ่มสำหรับกราฟ แต่ไม่ว่าจะลดปัญหากราฟคลาสสิกเช่นการค้นหากลุ่มหรือกลุ่มใกล้เคียงและการระบายสีกราฟหรือพวกเขามีการเชื่อมต่ออย่างใกล้ชิดกับการจัดกลุ่มตามระยะทาง (ถ้าคุณมีกราฟถ่วงน้ำหนัก)
การจัดกลุ่มตามความหนาแน่นเช่น DBSCAN มีชื่อแตกต่างกันและไม่ได้มุ่งเน้นที่การลดระยะทางให้สั้นที่สุด แต่โดยปกติแล้วจะมีการระบุ "ความหนาแน่น" ด้วยความเคารพต่อระยะทางดังนั้นอัลกอริธึมเหล่านี้จึงเป็นไปตามระยะทางหรือตามกริด
ส่วนสำคัญของคำถามที่คุณทิ้งไว้คือข้อมูลของคุณ ?
นอกจากนี้คำตอบที่ดีก่อนหน้านี้ผมจะขอแนะนำให้พิจารณารูปแบบผสม Dirichletและคชกรรมตามลำดับชั้น Dirichlet รุ่นกระบวนการ สำหรับภาพรวมค่อนข้างครอบคลุมและทั่วไปของแนวทางและวิธีการกำหนดจำนวนที่เหมาะสมของกลุ่มโปรดดูคำตอบที่ดีเยี่ยมนี้ในStackOverflow : /programming//a/15376462/2872891
วิธีการจำแนกหมดจดเป็น"regularized สูงสุดข้อมูล" alโดยโกเมส, ไม่มีความคิดเรื่องความเหมือน / ระยะทางที่เกี่ยวข้อง
ความคิดคือการมีการถดถอยโลจิสติกเช่นรูปแบบที่ทำให้คะแนนลงในถังขยะ แต่แทนที่จะฝึกอบรมเพื่อเพิ่มความน่าจะเป็นในการบันทึกรูปแบบของคลาสให้สูงขึ้นฟังก์ชั่นวัตถุประสงค์คือสิ่งที่ทำให้คะแนนในกลุ่มที่แตกต่างกัน
การขยายไปยังวิธีเคอร์เนลหรือเครือข่ายนิวรัลสำหรับการทำคลัสเตอร์ที่ไม่ใช่เชิงเส้นนั้นเป็นสิ่งที่ไม่ซับซ้อน