ฉันพยายามใช้การถดถอยแบบ RF เพื่อคาดการณ์ประสิทธิภาพของโรงสีกระดาษ
ฉันมีข้อมูลแบบนาทีต่อนาทีสำหรับอินพุต (อัตราและปริมาณของเยื่อไม้ที่เข้ามาใน ฯลฯ .. ) รวมถึงประสิทธิภาพของเครื่อง (กระดาษที่ผลิตพลังงานจากเครื่อง) และกำลังคาดการณ์ 10 นาที ล่วงหน้าเกี่ยวกับตัวแปรประสิทธิภาพ
ฉันมีข้อมูล 12 เดือนดังนั้นได้แยกเป็นชุดฝึกอบรม 11 เดือนและเดือนสุดท้ายสำหรับการทดสอบ
จนถึงตอนนี้ฉันได้สร้างคุณสมบัติใหม่ 10 รายการซึ่งมีค่าความล่าช้า 1-10 นาทีสำหรับตัวแปรประสิทธิภาพแต่ละตัวและใช้สิ่งเหล่านี้รวมทั้งอินพุตเพื่อทำการคาดการณ์ ประสิทธิภาพของชุดทดสอบค่อนข้างดี (ระบบสามารถคาดเดาได้ค่อนข้างมาก) แต่ฉันกังวลว่าฉันขาดอะไรบางอย่างในการเข้าใกล้
ตัวอย่างเช่นในบทความนี้ผู้เขียนระบุวิธีการของพวกเขาในการทดสอบความสามารถในการทำนายของรูปแบบป่าสุ่ม
การจำลองดำเนินการโดยเพิ่มสัปดาห์ใหม่ของข้อมูลฝึกอบรมโมเดลใหม่โดยใช้ข้อมูลที่อัปเดตและคาดการณ์จำนวนการระบาดของสัปดาห์ถัดไป
สิ่งนี้แตกต่างจากการใช้ข้อมูล 'ภายหลัง' ในอนุกรมเวลาเป็นการทดสอบอย่างไร ฉันควรตรวจสอบความถูกต้องของแบบจำลองการถดถอย RF ด้วยวิธีนี้เช่นเดียวกับชุดข้อมูลการทดสอบหรือไม่ นอกจากนี้วิธีการ 'autoregressive' แบบสุ่มเพื่อการถดถอยป่าแบบนี้ใช้ได้กับอนุกรมเวลาและฉันจำเป็นต้องสร้างตัวแปรที่ล้าหลังจำนวนมากหรือไม่ถ้าฉันสนใจการทำนาย 10 นาทีในอนาคต?