ฉันต้องการใช้ Latent Dirichlet Allocation สำหรับโครงการและฉันใช้ Python กับไลบรารี gensim หลังจากค้นหาหัวข้อที่ฉันต้องการจัดกลุ่มเอกสารโดยใช้อัลกอริทึมเช่น k-mean (โดยหลักแล้วฉันต้องการใช้ดีสำหรับการซ้อนกลุ่มเพื่อให้คำแนะนำยินดีต้อนรับ) ฉันจัดการเพื่อให้ได้หัวข้อ แต่อยู่ในรูปแบบของ:
0.041 * รัฐมนตรี + 0.041 * สำคัญ + 0.041 * ช่วงเวลา + 0.041 * แย้ง + 0.041 * นายกรัฐมนตรี
เพื่อที่จะใช้อัลกอริทึมการจัดกลุ่มและแก้ไขให้ฉันถ้าฉันผิดฉันเชื่อว่าฉันควรหาวิธีที่จะเป็นตัวแทนของแต่ละคำเป็นตัวเลขโดยใช้ tfidf หรือ word2vec
คุณมีความคิดว่าฉันจะ "ตัด" ข้อมูลที่เป็นข้อความจากเช่นรายการเพื่อทำเช่นนั้นแล้วนำมันกลับมาอีกครั้งเพื่อทำการคูณที่เหมาะสมหรือไม่
เช่นวิธีที่ฉันเห็นถ้าคำว่ารัฐมนตรีมีน้ำหนัก tfidf 0.042 และอื่น ๆ สำหรับคำอื่น ๆ ในหัวข้อเดียวกันฉันควรจะคำนวณสิ่งที่ชอบ:
0.041 * 0.42 + ... + 0.041 * tfidf (Prime) และรับผลลัพธ์ที่จะใช้ในภายหลังเพื่อจัดกลุ่มผลลัพธ์
ขอขอบคุณสำหรับเวลาของคุณ.