ฉันกำลังมองหาการจัดกลุ่ม k หมายถึงชุดของจุด 10 มิติ การจับ: มี 10 ^ 10 คะแนนคะแนน
ฉันกำลังมองหาเพียงศูนย์กลางและขนาดของกลุ่มที่ใหญ่ที่สุด (สมมติว่า 10 ถึง 100 กลุ่ม); ฉันไม่สนใจว่าคลัสเตอร์แต่ละจุดจะอยู่ในจุดใดการใช้ k-mean โดยเฉพาะนั้นไม่สำคัญ ฉันแค่กำลังมองหาเอฟเฟกต์ที่คล้ายกันค่าประมาณ k-mean หรืออัลกอริธึมที่เกี่ยวข้องจะดีมาก (minibatch-SGD หมายถึง ... ) เนื่องจาก GMM มีปัญหาเช่นเดียวกับ k-mean การทำ GMM กับข้อมูลขนาดเดียวกันก็น่าสนใจเช่นกัน
ในระดับนี้การสุ่มตัวอย่างข้อมูลอาจไม่เปลี่ยนผลลัพธ์อย่างมีนัยสำคัญ: โอกาสในการค้นหา 10 อันดับแรกของกลุ่มเดียวกันโดยใช้ตัวอย่างที่ 1 / 10,000 ของข้อมูลนั้นดีมาก แต่ถึงอย่างนั้นนั่นคือปัญหา 10 ^ 6 จุดซึ่งอยู่บน / เกินขอบของเวไนย