วิธีการสร้างแบบจำลองข้อมูลขนาดใหญ่ยาว?

14

ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่

ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่

เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ RF / SVM ในการคำนวณความสัมพันธ์อัตโนมัติได้หรือไม่

ขอบคุณมาก!

วิธีการที่เป็นไปได้บางอย่าง แต่ฉันไม่สามารถหาเวลาเขียนเป็นประกายได้

ฉันจะรวมเอฟเฟกต์แบบสุ่มไว้ในป่าสุ่มได้อย่างไร

การถดถอย SVM พร้อมข้อมูลระยะยาว

— user2926523
แหล่งที่มา

1

ชุดข้อมูลมีขนาดไม่ใหญ่มาก 1 ล้านวิชาที่มี 30 รายการข้อมูลบางที 20 ไบต์ต่อการบันทึกหนึ่งครั้งจะนำมาซึ่ง 600MB ไม่เป็นไร. แพคเกจสถิติใด ๆ ที่จะจัดการกับสิ่งนี้

— Aksakal

4

หากคุณมีตัวแปรเพียงเล็กน้อยเช่นในตัวอย่างคุณควรไม่มีปัญหากับตัวแปรบางlme4ตัว

ที่เทคนิคการเรียนรู้ของเครื่องส่องแสงจริงๆคือเมื่อคุณมีตัวแปรจำนวนมากและคุณต้องการจำลองแบบไม่เชิงเส้นและปฏิสัมพันธ์ระหว่างตัวแปรของคุณ มีการพัฒนาแนวทาง ML เพียงเล็กน้อยที่สามารถทำได้ด้วยข้อมูลระยะยาว RNNs เป็นหนึ่งในตัวเลือกแม้ว่าโดยทั่วไปแล้วสิ่งเหล่านี้จะได้รับการปรับให้เหมาะสมกับปัญหาอนุกรมเวลามากกว่าข้อมูลพาเนล

โดยหลักการแล้วโครงข่ายประสาทเทียมแบบป้อนไปข้างหน้าเป็นแบบจำลองเชิงเส้น (แบบทั่วไป) โดยมี regressors ที่เป็นฟังก์ชันแบบไม่เชิงเส้นของข้อมูลอินพุต หาก regressors ที่ได้รับ - ชั้นบนสุดของแบบจำลองก่อนการส่งออก - ถือว่าเป็นส่วนที่ไม่ใช่พารามิเตอร์แล้วไม่มีอะไรหยุดคุณจากการเพิ่มโครงสร้างพารามิเตอร์พร้อมกับมัน - บางทีในรูปแบบของผลกระทบแบบสุ่ม

สิ่งนี้ไม่ได้ถูกนำมาใช้อย่างไรก็ตามสำหรับปัญหาการจัดหมวดหมู่ซึ่งฉันคิดว่าคุณกำลังทำอยู่เพราะคุณสนใจ SVM ในฐานะผู้สมัคร

— generic_user
แหล่งที่มา

2

การทำซ้ำจากเทคนิคการเรียนรู้ของเครื่องสำหรับข้อมูลระยะยาว : เอกสารประกอบ sklearn การตรวจสอบความถูกต้องข้ามมีตัววนซ้ำการตรวจสอบความถูกต้องสำหรับข้อมูลที่จัดกลุ่ม! ดูGroupKFoldออกจากOneGroupOutและออกจากGroupOutออก

หากคุณกำลังสนใจในการทำนายบริสุทธิ์เลือกที่ดีที่สุดน่าจะเป็นที่จะใช้กำเริบโครงข่ายประสาทเทียม เป็นอีกตัวเลือกหนึ่งที่ซ่อนมาร์คอฟรุ่น

— user0
แหล่งที่มา

2

คุณต้องการป่าสุ่ม, NNs, ฯลฯ สำหรับข้อมูลระยะยาวของคุณหรือไม่? lme4สามารถจัดการกับคนหลายล้านคน:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

มันสามารถจัดการกับโมเดลเชิงเส้นผสมได้อย่างง่ายดายและอย่างที่คุณเห็นจากลิงก์มันยังรองรับโมเดลผสมแบบไม่เชิงเส้น (แม้ว่าฉันจะไม่คาดหวังว่ามันจะเป็นฟ้าผ่าเร็วสำหรับรุ่นที่ไม่ใช่เชิงเส้น)

— DeltaIV
แหล่งที่มา