รุ่นล่าสุดหนึ่งที่พยายามจับภาพความคิดนี้คือโดย Balcan, Blum และ Gupta '09 พวกเขาให้อัลกอริธึมสำหรับวัตถุประสงค์การทำคลัสเตอร์ต่าง ๆ เมื่อข้อมูลเป็นไปตามข้อสันนิษฐานบางประการนั่นคือถ้าข้อมูลเป็นเช่นนั้นการประมาณสำหรับการจัดกลุ่มเป้าหมายคือ - ใกล้กับการจัดกลุ่มที่เหมาะสมที่สุด การจัดกลุ่มที่เกือบจะเหมาะสมที่สุดแม้สำหรับค่าซึ่งการค้นหา -approximation คือ NP-Hard นี่เป็นข้อสันนิษฐานเกี่ยวกับข้อมูลที่ว่า "ดี" หรือ "แยกกัน" ลิปตันมีโพสต์บล็อกที่ดีเกี่ยวกับเรื่องนี้คεคค
อีกประเภทที่คล้ายกันของเงื่อนไขเกี่ยวกับข้อมูลที่ได้รับในกระดาษโดย Bilu และ Linial '10 คือการก่อกวน - เสถียรภาพ โดยพื้นฐานแล้วพวกเขาแสดงให้เห็นว่าหากข้อมูลเป็นเช่นนั้นการจัดกลุ่มที่ดีที่สุดจะไม่เปลี่ยนแปลงเมื่อข้อมูลถูกรบกวน (โดยพารามิเตอร์ ) สำหรับค่าที่มากพอที่เราสามารถค้นหาการจัดกลุ่มที่เหมาะสมสำหรับข้อมูลต้นฉบับได้อย่างมีประสิทธิภาพ แม้ว่าปัญหาจะเป็นปัญหา NP-Hard โดยทั่วไป นี่เป็นอีกแนวคิดของความเสถียรหรือความสามารถในการแบ่งแยกของข้อมูลαα
ฉันแน่ใจว่ามีงานก่อนหน้านี้และแนวคิดที่เกี่ยวข้องก่อนหน้านี้ แต่นี่คือผลลัพธ์ทางทฤษฎีบางส่วนที่เกี่ยวข้องกับคำถามของคุณ