การแสดงข้อมูลหลายมิติ (LSI) ใน 2D


11

ฉันใช้การจัดทำดัชนีความหมายแฝงเพื่อค้นหาความคล้ายคลึงกันระหว่างเอกสาร ( ขอบคุณ JMS! )

หลังจากการลดขนาดฉันได้ลอง k-หมายถึงการจัดกลุ่มเพื่อจัดกลุ่มเอกสารเป็นกลุ่มซึ่งทำงานได้ดีมาก แต่ฉันอยากจะไปอีกหน่อยและมองภาพเอกสารเป็นชุดของโหนดโดยที่ระยะห่างระหว่างสองโหนดนั้นแปรผกผันกับความคล้ายคลึงกัน (โหนดที่มีความคล้ายคลึงกันมากอยู่ใกล้กัน)

มันทำให้ฉันไม่สามารถลดเมทริกซ์ความคล้ายคลึงกันให้เป็นกราฟ 2 มิติได้อย่างแม่นยำเนื่องจากข้อมูลของฉันคือ> 2 มิติ ดังนั้นคำถามแรกของฉัน: มีวิธีมาตรฐานในการทำเช่นนี้?

ฉันสามารถลดข้อมูลของฉันให้เหลือสองมิติจากนั้นจึงแปลงเป็นแกน X และ Y และนั่นจะเพียงพอสำหรับกลุ่มของเอกสาร ~ 100-200 หรือไม่ หากนี่เป็นวิธีแก้ปัญหาจะดีกว่าหรือไม่ที่จะลดข้อมูลของฉันลงเป็น 2 มิติจากจุดเริ่มต้นหรือมีวิธีการเลือกสองมิติที่ "ดีที่สุด" จากข้อมูลหลายมิติของฉันหรือไม่

ฉันใช้ Python และไลบรารี gensim หากนั่นสร้างความแตกต่าง


ทำไมคุณต้องลดมิติ ในการสร้างกราฟที่คุณต้องการคุณจะต้องใช้ขอบที่ความยาวของขอบนั้นจะเป็นสัดส่วนกับระยะห่างระหว่างเอกสาร คุณมีสิ่งนั้นอยู่แล้วจากตัวชี้วัดที่ใช้สำหรับการจัดกลุ่ม k-mean
Aman

@Aman ที่ใช้ไม่ได้กับการแสดงความคล้ายคลึงกันระหว่าง> 2 เอกสารบนระนาบ 2D (กราฟ) แน่นอนว่าฉันสามารถพล็อตจุด A และ B โดยมีการแยกตามระยะทาง k- หมายถึง แต่เมื่อฉันต้องพล็อตจุด C ตามระยะทางถึง A และ B โดยทั่วไปแล้วจะไม่มีจุดในพื้นที่ 2 มิติที่ตรงกับความสัมพันธ์แบบคู่ทั้งหมด
Jeff

คำตอบ:


7

S=XXSM=VΛV=XXX=VΛ1/2

ΛX

มีรหัสมากมายสำหรับ MDS (และฉันจะแปลกใจหาก scipy ไม่มีเวอร์ชันบางรุ่น) ไม่ว่าในกรณีใดก็ตามตราบใดที่คุณสามารถเข้าถึง SVD รูทีนบางอย่างในหลามที่คุณตั้งค่าไว้


1
ฉันคิดว่า LDA น่าจะดีกว่าสำหรับสิ่งนี้ PCA - หากคุณได้รับผ่านแผนกบริการ - จะไม่เก็บรักษาข้อมูลการเลือกปฏิบัติของกลุ่ม (คลาส) ใด ๆ ซึ่งเป็นสิ่งที่ OP ดำเนินการ
Zhubarb

0

มีซอฟต์แวร์ที่เรียกว่าggobiที่สามารถช่วยคุณได้ มันช่วยให้คุณสำรวจช่องว่างหลอกหลายมิติ เป็นส่วนใหญ่สำหรับการสำรวจข้อมูล แต่ส่วนต่อประสานนั้นเป็นมิตรอย่างยิ่งและ 'มันเพียงแค่ใช้งานได้'!

คุณเพียงแค่ใช้รูปแบบ CSV (ใน RI มักจะใช้ write.csv กับพารามิเตอร์เริ่มต้น) หรือไฟล์ XML (รูปแบบนี้ช่วยให้คุณควบคุมได้มากขึ้นฉันมักจะบันทึกตารางของฉันใน CSV แล้วส่งออกเป็น XML ด้วย ggobi และแก้ไขด้วยตนเอง เช่นเพื่อเปลี่ยนลำดับของปัจจัยบางอย่าง)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.