ฉันกำลังทำงานจัดหมวดหมู่ข้อความด้วย R และฉันได้รับเมทริกซ์คำศัพท์เอกสารที่มีขนาด 22490 คูณ 120,000 (เฉพาะรายการที่ไม่เป็นศูนย์ 4 ล้านรายการน้อยกว่า 1%) ตอนนี้ฉันต้องการลดขนาดโดยใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) น่าเสียดายที่ R ไม่สามารถจัดการเมทริกซ์ขนาดใหญ่นี้ได้ดังนั้นฉันจึงจัดเก็บเมทริกซ์แบบกระจัดกระจายในไฟล์ใน "รูปแบบตลาดเมทริกซ์" หวังว่าจะใช้เทคนิคอื่นเพื่อทำ PCA
ใครก็ตามสามารถให้คำแนะนำแก่ฉันเกี่ยวกับห้องสมุดที่มีประโยชน์ (ไม่ว่าจะเป็นภาษาการเขียนโปรแกรม) ซึ่งสามารถทำ PCA กับเมทริกซ์ขนาดใหญ่นี้ได้อย่างง่ายดายหรือทำ PCA แบบยาวด้วยตัวเองในคำอื่น ๆคำนวณเมทริกซ์ความแปรปรวนร่วม แล้วคำนวณเวกเตอร์ลักษณะเฉพาะสำหรับเมทริกซ์ความแปรปรวนร่วม
สิ่งที่ผมต้องการคือการคำนวณเครื่องคอมพิวเตอร์ทั้งหมด (120,000) และเลือกเฉพาะด้านบน N พีซีที่บัญชีสำหรับ 90% แปรปรวน เห็นได้ชัดว่าในกรณีนี้ฉันต้องให้ค่าเกณฑ์เบื้องต้นเพื่อตั้งค่าความแปรปรวนเล็ก ๆ ให้เป็น 0 (ในเมทริกซ์ความแปรปรวนร่วม) มิฉะนั้นเมทริกซ์ความแปรปรวนร่วมจะไม่กระจัดกระจายและขนาดจะเท่ากับ 120,000 โดย 120,000 ซึ่งเป็น เป็นไปไม่ได้ที่จะจัดการด้วยเครื่องเดียว นอกจากนี้การโหลด (eigenvectors) จะมีขนาดใหญ่มากและควรเก็บไว้ในรูปแบบเบาบาง
ขอบคุณมากสำหรับความช่วยเหลือใด ๆ !
หมายเหตุ: ฉันกำลังใช้เครื่องที่มี 24GB RAM และ 8 cpu cores