การถดถอยป่าแบบสุ่มสำหรับการทำนายอนุกรมเวลา


10

ฉันพยายามใช้การถดถอยแบบ RF เพื่อคาดการณ์ประสิทธิภาพของโรงสีกระดาษ

ฉันมีข้อมูลแบบนาทีต่อนาทีสำหรับอินพุต (อัตราและปริมาณของเยื่อไม้ที่เข้ามาใน ฯลฯ .. ) รวมถึงประสิทธิภาพของเครื่อง (กระดาษที่ผลิตพลังงานจากเครื่อง) และกำลังคาดการณ์ 10 นาที ล่วงหน้าเกี่ยวกับตัวแปรประสิทธิภาพ

ฉันมีข้อมูล 12 เดือนดังนั้นได้แยกเป็นชุดฝึกอบรม 11 เดือนและเดือนสุดท้ายสำหรับการทดสอบ

จนถึงตอนนี้ฉันได้สร้างคุณสมบัติใหม่ 10 รายการซึ่งมีค่าความล่าช้า 1-10 นาทีสำหรับตัวแปรประสิทธิภาพแต่ละตัวและใช้สิ่งเหล่านี้รวมทั้งอินพุตเพื่อทำการคาดการณ์ ประสิทธิภาพของชุดทดสอบค่อนข้างดี (ระบบสามารถคาดเดาได้ค่อนข้างมาก) แต่ฉันกังวลว่าฉันขาดอะไรบางอย่างในการเข้าใกล้

ตัวอย่างเช่นในบทความนี้ผู้เขียนระบุวิธีการของพวกเขาในการทดสอบความสามารถในการทำนายของรูปแบบป่าสุ่ม

การจำลองดำเนินการโดยเพิ่มสัปดาห์ใหม่ของข้อมูลฝึกอบรมโมเดลใหม่โดยใช้ข้อมูลที่อัปเดตและคาดการณ์จำนวนการระบาดของสัปดาห์ถัดไป

สิ่งนี้แตกต่างจากการใช้ข้อมูล 'ภายหลัง' ในอนุกรมเวลาเป็นการทดสอบอย่างไร ฉันควรตรวจสอบความถูกต้องของแบบจำลองการถดถอย RF ด้วยวิธีนี้เช่นเดียวกับชุดข้อมูลการทดสอบหรือไม่ นอกจากนี้วิธีการ 'autoregressive' แบบสุ่มเพื่อการถดถอยป่าแบบนี้ใช้ได้กับอนุกรมเวลาและฉันจำเป็นต้องสร้างตัวแปรที่ล้าหลังจำนวนมากหรือไม่ถ้าฉันสนใจการทำนาย 10 นาทีในอนาคต?


2
RFs ไม่ได้ถูกออกแบบมาและไม่รวมการพิจารณาทางโลกเข้าไว้ด้วยกันอย่างชัดเจน ระบุว่าทำไมใช้พวกเขาทั้งหมดสำหรับการวิเคราะห์นี้ มีวิธีอนุกรมเวลามากมาย เลือกหนึ่ง.
Mike Hunter

2
@Dohnson ฉันคิดว่าฉันจะพยายามเลียนแบบวิธีการในบทความ: ลอง RF และเปรียบเทียบกับ ARIMA คุณแนะนำว่าสิ่งนี้ไม่คุ้มค่ากับเวลาและเพียงแค่ใช้ประโยชน์จาก ARIMA?
KRS- สนุก

4
@D จอห์นสันกลไกของแบบจำลองการตอบโต้อัตโนมัตินั้นเหมือนกับแบบจำลองการถดถอยแบบภาคตัดขวาง เมื่อสร้างคุณลักษณะที่ล้าหลังแล้วทำไมไม่ใช้ RF ในการตั้งค่าแบบตัดขวาง ฉันคิดว่ามันยุติธรรมที่จะลองพวกเขา แต่คุณพูดถูกว่าวิธีการอื่นเป็นที่นิยมมากขึ้นในอนุกรมเวลาและ OP อาจได้รับประโยชน์จากการสำรวจเช่นกัน
Richard Hardy

1
มุมมองของฉันคือ RFs เป็นเหมือนค้อนที่ทุกอย่างกลายเป็นเล็บ ด้วยข้อมูลตามที่ได้อธิบายไว้โดย OP ตัวเลือกแรกของฉันคือข้อมูลแผงหรือโมเดลที่รวมกลุ่มไม่ใช่ ARIMA
Mike Hunter

5
ฉันเจอสิ่งนี้เมื่อไม่นานมานี้และอ่านบทความที่อ้างถึงเมื่อสองสามวันก่อน ฉันกำลังเปรียบเทียบฟอเรสต์แบบสุ่มกับ LSTM สำหรับการพยากรณ์อนุกรมเวลาหลายตัวแปร ที่น่าสนใจ LSTM ทำได้ดีกว่าเมื่อรวมเวลาน้อยลงในข้อมูลการฝึกอบรม แต่เมื่อฉันเพิ่มข้อมูลลงไปอีกหลายปีผลลัพธ์ของทั้งสองวิธีจะแปรเปลี่ยนเป็นผลลัพธ์ที่แท้จริง ฉันคิดว่าส่วนใหญ่เป็นเพราะคุณสมบัติให้ข้อมูลเพียงพอที่จะเอาชนะองค์ประกอบทางโลก อย่างไรก็ตามคิดว่ามันน่าสนใจ นอกจากนี้ฉันไม่เคยเห็น ARIMA ทำงานได้ดียกเว้นในกรณีตามฤดูกาลที่ชัดเจนมากและตัวแปรหลายตัวแปร ARIMA คือ ...
Hobbes

คำตอบ:


6

สิ่งนี้แตกต่างจากการใช้ข้อมูล 'ภายหลัง' ในอนุกรมเวลาเป็นการทดสอบอย่างไร

วิธีการที่คุณอ้างถึงนั้นเรียกว่าการคาดการณ์ "แหล่งกำเนิดกลิ้ง": แหล่งที่มาที่เราคาดการณ์ไว้คือ "ย้อนไปข้างหน้า" และข้อมูลการฝึกอบรมจะได้รับการอัปเดตด้วยข้อมูลที่มีใหม่ วิธีที่ง่ายกว่าคือ "การพยากรณ์ต้นกำเนิดเดี่ยว" ซึ่งเราเลือกต้นกำเนิดเดียว

ข้อได้เปรียบของการคาดการณ์กลิ้งกำเนิดก็คือว่ามันเลียนแบบระบบการคาดการณ์เมื่อเวลาผ่านไป ในการคาดการณ์ต้นกำเนิดเดี่ยวเราอาจเลือกต้นกำเนิดที่ระบบของเราทำงานได้ดีมาก (หรือแย่มาก) ซึ่งอาจทำให้เรามีความคิดที่ไม่ถูกต้องเกี่ยวกับประสิทธิภาพของระบบของเรา

ข้อเสียอย่างหนึ่งของการพยากรณ์ต้นกำเนิดคือความต้องการข้อมูลที่สูงขึ้น หากเราต้องการคาดการณ์ 10 ขั้นตอนด้วยการสังเกตการณ์ทางประวัติศาสตร์อย่างน้อย 50 ครั้งเราสามารถทำจุดกำเนิดเดียวโดยรวม 60 จุดข้อมูลโดยรวม แต่ถ้าเราต้องการทำ 10 ต้นกำเนิดที่ทับซ้อนกันเราต้องมี 70 จุดข้อมูล

ข้อเสียอื่น ๆ แน่นอนว่ามีความซับซ้อนสูงกว่า

ไม่จำเป็นต้องพูดคุณไม่ควรใช้ข้อมูล "ภายหลัง" ในการพยากรณ์ต้นกำเนิดแบบหมุน แต่ใช้เฉพาะข้อมูลก่อนที่ต้นกำเนิดที่คุณใช้ในการทำซ้ำแต่ละครั้ง

ฉันควรตรวจสอบความถูกต้องของแบบจำลองการถดถอย RF ด้วยวิธีนี้เช่นเดียวกับชุดข้อมูลการทดสอบหรือไม่

หากคุณมีข้อมูลเพียงพอการประเมินต้นกำเนิดแบบกลิ้งจะสร้างแรงบันดาลใจให้ฉันมากกว่าการประเมินต้นกำเนิดเดียวเพราะหวังว่ามันจะเฉลี่ยผลกระทบของต้นกำเนิด

นอกจากนี้วิธีการ 'autoregressive' แบบสุ่มเพื่อการถดถอยป่าแบบนี้ใช้ได้กับอนุกรมเวลาและฉันจำเป็นต้องสร้างตัวแปรที่ล้าหลังจำนวนมากหรือไม่ถ้าฉันสนใจการทำนาย 10 นาทีในอนาคต?

ใช่การคาดการณ์แบบกลิ้งและแบบจุดเริ่มต้นเดียวใช้ได้กับแบบฝึกหัดทำนายผลใด ๆ ไม่ได้ขึ้นอยู่กับว่าคุณใช้ฟอเรสต์แบบสุ่มหรือ ARIMA หรืออย่างอื่น

ไม่ว่าคุณต้องการตัวแปรที่ล้าหลังของคุณหรือไม่เป็นสิ่งที่เราไม่สามารถให้คำแนะนำคุณได้ อาจเป็นการดีที่สุดที่จะพูดคุยกับผู้เชี่ยวชาญในประเด็นที่อาจแนะนำอินพุตอื่น ๆ เพียงลอง RF ของคุณด้วยอินพุตล้าหลังและไม่ใส่ และยังเปรียบเทียบกับมาตรฐานมาตรฐานเช่น ARIMA หรือ ETS หรือวิธีการได้ง่าย, ซึ่งอาจจะเป็นที่น่าแปลกใจยากที่จะชนะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.