ใช่มันเป็นไปได้
หากเมทริกซ์ข้อมูลไม่พอดีกับ RAM แสดงว่ายังไม่สิ้นสุดของโลก: มีอัลกอริธึมที่มีประสิทธิภาพที่สามารถทำงานกับข้อมูลที่เก็บไว้ในฮาร์ดไดรฟ์ ดูเช่นสุ่ม PCA ที่อธิบายไว้ใน Halko et al., 2010 อัลกอริทึมสำหรับการวิเคราะห์องค์ประกอบหลักของชุดข้อมูลขนาดใหญ่
ในส่วนที่ 6.2 ผู้เขียนกล่าวว่าพวกเขาได้ลองอัลกอริทึมของพวกเขาใน 400k คูณ 100k data matrix และที่
อัลกอริทึมของกระดาษปัจจุบันต้องใช้ 12.3 ชั่วโมงในการประมวลผลชุดข้อมูลทั้งหมด 150 GB ที่เก็บไว้ในดิสก์โดยใช้คอมพิวเตอร์แล็ปท็อปที่มี RAM 1.5 GB [... ]
โปรดทราบว่านี่คือในอดีตของฮาร์ดไดรฟ์แม่เหล็ก; วันนี้มีไดรฟ์โซลิดสเตตที่เร็วกว่ามากที่มีอยู่ดังนั้นฉันเดาว่าอัลกอริทึมเดียวกันจะทำงานเร็วกว่ามาก
ดูเพิ่มเติมที่เธรดเก่านี้สำหรับการสนทนาเพิ่มเติมเกี่ยวกับ PCA แบบสุ่ม: อัลกอริธึม PCA ที่ดีที่สุดสำหรับฟีเจอร์จำนวนมาก (> 10K)? และขนาดใหญ่ 2011 ตรวจสอบโดย Halko et al .: หาโครงสร้างที่มี Randomness: น่าจะเป็นอัลกอริทึมสำหรับการสร้างประมาณเมทริกซ์ decompositions