ฉันใช้การจัดทำดัชนีความหมายแฝงเพื่อค้นหาความคล้ายคลึงกันระหว่างเอกสาร ( ขอบคุณ JMS! )
หลังจากการลดขนาดฉันได้ลอง k-หมายถึงการจัดกลุ่มเพื่อจัดกลุ่มเอกสารเป็นกลุ่มซึ่งทำงานได้ดีมาก แต่ฉันอยากจะไปอีกหน่อยและมองภาพเอกสารเป็นชุดของโหนดโดยที่ระยะห่างระหว่างสองโหนดนั้นแปรผกผันกับความคล้ายคลึงกัน (โหนดที่มีความคล้ายคลึงกันมากอยู่ใกล้กัน)
มันทำให้ฉันไม่สามารถลดเมทริกซ์ความคล้ายคลึงกันให้เป็นกราฟ 2 มิติได้อย่างแม่นยำเนื่องจากข้อมูลของฉันคือ> 2 มิติ ดังนั้นคำถามแรกของฉัน: มีวิธีมาตรฐานในการทำเช่นนี้?
ฉันสามารถลดข้อมูลของฉันให้เหลือสองมิติจากนั้นจึงแปลงเป็นแกน X และ Y และนั่นจะเพียงพอสำหรับกลุ่มของเอกสาร ~ 100-200 หรือไม่ หากนี่เป็นวิธีแก้ปัญหาจะดีกว่าหรือไม่ที่จะลดข้อมูลของฉันลงเป็น 2 มิติจากจุดเริ่มต้นหรือมีวิธีการเลือกสองมิติที่ "ดีที่สุด" จากข้อมูลหลายมิติของฉันหรือไม่
ฉันใช้ Python และไลบรารี gensim หากนั่นสร้างความแตกต่าง