อะไรคือความหมายของ eigenvector ของเมทริกซ์ข้อมูลร่วมกัน?


14

เมื่อมองไปที่ไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมเราจะได้คำแนะนำของความแปรปรวนสูงสุด (ไอเกนวีคตัวแรกคือทิศทางที่ข้อมูลแตกต่างกันมากที่สุด ฯลฯ ); สิ่งนี้เรียกว่าการวิเคราะห์องค์ประกอบหลัก (PCA)

ฉันสงสัยว่าการดู eigenvector / คุณค่าของเมทริกซ์ข้อมูลร่วมหมายความว่าพวกเขาจะชี้ไปในทิศทางของเอนโทรปีสูงสุดหรือไม่


4
ผมไม่ทราบ แต่ได้เรียนรู้เพียงแค่ว่าการฝึกอบรมข้อมูลร่วมกันไม่ได้เสมอบวกกึ่งชัดเจน: arxiv.org/abs/1307.6673
อะมีบาพูดว่า Reinstate Monica

3
มันเตือนบางสิ่งที่เราทำงานใน: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Simone

คำตอบ:


3

ในขณะที่มันไม่ใช่คำตอบโดยตรง (เพราะมันเกี่ยวกับข้อมูลร่วมกันแบบจุด ) ดูที่กระดาษที่เกี่ยวข้องกับword2vecกับการสลายตัวของของเมทริกซ์ PMI:

เราวิเคราะห์ skip-gram ด้วยการลบการสุ่มตัวอย่าง (SGNS) ซึ่งเป็นวิธีการฝังคำที่แนะนำโดย Mikolov et al. และแสดงให้เห็นว่าเป็นการแยกตัวประกอบเมทริกซ์คำ - บริบทโดยปริยายซึ่งเซลล์เป็นข้อมูลร่วมกันชี้ (PMI) ของแต่ละจุด คำและบริบทคู่ซึ่งถูกเลื่อนโดยค่าคงที่ทั่วโลก เราพบว่าวิธีการฝังตัวอีกวิธีหนึ่งคือ NCE ซึ่งทำการแยกเมทริกซ์ที่คล้ายกันโดยปริยายซึ่งแต่ละเซลล์คือความน่าจะเป็นแบบมีเงื่อนไข (เปลี่ยน) บันทึกของคำที่ให้บริบท เราแสดงให้เห็นว่าการใช้เมทริกซ์คำศัพท์บริบท PMI เชิงบวกแบบ Shift Shift เชิงบวกเพื่อเป็นตัวแทนคำปรับปรุงผลลัพธ์ให้กับงานที่คล้ายคลึงกันของคำสองคำและหนึ่งในสองภารกิจที่คล้ายคลึงกัน เมื่อต้องการเวกเตอร์มิติต่ำที่มีความหนาแน่นการแยกตัวประกอบที่แม่นยำด้วย SVD สามารถบรรลุโซลูชันที่อย่างน้อยดีเท่ากับโซลูชันของ SGNS สำหรับงานคำที่มีความคล้ายคลึงกัน ในการเปรียบเทียบคำถาม SGNS ยังคงเหนือกว่า SVD เราคาดการณ์ว่าสิ่งนี้เกิดจากลักษณะถ่วงน้ำหนักของการแยกตัวประกอบของ SGNS

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.