การจัดกลุ่มอย่างเป็นทางการนอกเหนือจาก K-mean สำหรับข้อมูลที่แบ่งแยกได้


11

ข้อมูลในโลกแห่งความเป็นจริงบางครั้งมีจำนวนธรรมชาติของกลุ่ม (พยายามที่จะจัดกลุ่มเป็นกลุ่มน้อยกว่าเวทมนตร์ k บางอย่างจะทำให้ค่าใช้จ่ายการจัดกลุ่มเพิ่มขึ้นอย่างมาก) วันนี้ฉันเข้าร่วมการบรรยายโดยดร. อดัมเมย์สันและเขาเรียกข้อมูลประเภทนั้นว่า "ข้อมูลที่แยกกันได้"

การทำให้เป็นระเบียบของการจัดกลุ่มบางอย่างนอกเหนือจากวิธี K คืออะไรซึ่งสามารถคล้อยตามอัลกอริธึมการจัดกลุ่ม (การประมาณค่าหรือฮิวริสติก) ที่จะใช้ประโยชน์จากความสามารถในการแยกตามธรรมชาติของข้อมูล

คำตอบ:


11

รุ่นล่าสุดหนึ่งที่พยายามจับภาพความคิดนี้คือโดย Balcan, Blum และ Gupta '09 พวกเขาให้อัลกอริธึมสำหรับวัตถุประสงค์การทำคลัสเตอร์ต่าง ๆ เมื่อข้อมูลเป็นไปตามข้อสันนิษฐานบางประการนั่นคือถ้าข้อมูลเป็นเช่นนั้นการประมาณสำหรับการจัดกลุ่มเป้าหมายคือ - ใกล้กับการจัดกลุ่มที่เหมาะสมที่สุด การจัดกลุ่มที่เกือบจะเหมาะสมที่สุดแม้สำหรับค่าซึ่งการค้นหา -approximation คือ NP-Hard นี่เป็นข้อสันนิษฐานเกี่ยวกับข้อมูลที่ว่า "ดี" หรือ "แยกกัน" ลิปตันมีโพสต์บล็อกที่ดีเกี่ยวกับเรื่องนี้ε

อีกประเภทที่คล้ายกันของเงื่อนไขเกี่ยวกับข้อมูลที่ได้รับในกระดาษโดย Bilu และ Linial '10 คือการก่อกวน - เสถียรภาพ โดยพื้นฐานแล้วพวกเขาแสดงให้เห็นว่าหากข้อมูลเป็นเช่นนั้นการจัดกลุ่มที่ดีที่สุดจะไม่เปลี่ยนแปลงเมื่อข้อมูลถูกรบกวน (โดยพารามิเตอร์ ) สำหรับค่าที่มากพอที่เราสามารถค้นหาการจัดกลุ่มที่เหมาะสมสำหรับข้อมูลต้นฉบับได้อย่างมีประสิทธิภาพ แม้ว่าปัญหาจะเป็นปัญหา NP-Hard โดยทั่วไป นี่เป็นอีกแนวคิดของความเสถียรหรือความสามารถในการแบ่งแยกของข้อมูลαα

ฉันแน่ใจว่ามีงานก่อนหน้านี้และแนวคิดที่เกี่ยวข้องก่อนหน้านี้ แต่นี่คือผลลัพธ์ทางทฤษฎีบางส่วนที่เกี่ยวข้องกับคำถามของคุณ


8

นอกเหนือจากผลงานของOstrovsky et al , และงานของArthur และ Vassilvitskiiเกี่ยวกับพฤติกรรมของ k- mean , มีร่างของงานทางทฤษฎีเกี่ยวกับEuclidean k-median และ k- meanนำไปสู่อัลกอริธึมเชิงเส้นสำหรับการจัดกลุ่มภายใต้ สูตรเหล่านี้ สิ่งที่น่าสนใจเกี่ยวกับงานหลังนี้คือพวกเขาใช้ความสามารถในการแยกเป็นเครื่องมือในการวิเคราะห์ แต่ไม่ต้องการข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.