ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่
ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่
เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ RF / SVM ในการคำนวณความสัมพันธ์อัตโนมัติได้หรือไม่
ขอบคุณมาก!
วิธีการที่เป็นไปได้บางอย่าง แต่ฉันไม่สามารถหาเวลาเขียนเป็นประกายได้