2
การลดขนาดอย่างมีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลที่มี ~ 1M แถวและ ~ 500K คุณสมบัติกระจัดกระจาย ฉันต้องการลดมิติข้อมูลลงที่ใดที่หนึ่งตามลำดับของคุณลักษณะที่หนาแน่น 1K-5K sklearn.decomposition.PCAไม่ทำงานกับข้อมูลที่กระจัดกระจายและฉันพยายามใช้sklearn.decomposition.TruncatedSVDแต่ได้รับข้อผิดพลาดของหน่วยความจำอย่างรวดเร็ว ตัวเลือกของฉันในการลดมิติข้อมูลที่มีประสิทธิภาพในระดับนี้คืออะไร