มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด
ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า
คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ