ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน
ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ