กลยุทธ์การเพิ่มข้อมูลสำหรับการพยากรณ์อนุกรมเวลา


13

ฉันกำลังพิจารณาสองกลยุทธ์ในการทำ "การเพิ่มข้อมูล" ในการพยากรณ์อนุกรมเวลา

ครั้งแรกพื้นหลังเล็กน้อย ตัวทำนายPเพื่อคาดการณ์ขั้นตอนถัดไปของอนุกรมเวลา{Aผม}เป็นฟังก์ชันที่โดยทั่วไปจะขึ้นอยู่กับสองสิ่งคือสถานะของอนุกรมเวลาที่ผ่านมา แต่ยังรวมถึงรัฐในอดีตของผู้ทำนายด้วย:

P({Aผมเสื้อ-1},PSเสื้อ-1)

หากเราต้องการปรับ / ฝึกอบรมระบบของเราเพื่อให้ได้Pที่ดีเราจะต้องมีข้อมูลที่เพียงพอ บางครั้งข้อมูลที่มีอยู่อาจไม่เพียงพอดังนั้นเราจึงพิจารณาเพิ่มข้อมูล

วิธีแรก

สมมติว่าเรามีชุดเวลา{Aผม}กับ1ผมn n และสมมติว่าเรามีεที่ตรงตามเงื่อนไขต่อไปนี้: 0<ε<|Aผม+1-Aผม|ผม{1,...,n} }

เราสามารถสร้างอนุกรมเวลาใหม่{Bผม=Aผม+Rผม}โดยที่Rผมเป็นการรับรู้ของการแจกแจงยังไม่มีข้อความ(0,ε2) )

จากนั้นแทนการลดการสูญเสียหน้าที่เพียงกว่า{Aผม}เราทำอย่างนั้นได้ยังมากกว่า{Bผม} } ดังนั้นหากกระบวนการปรับให้เหมาะสมใช้ขั้นตอนม.เราต้อง "เตรียมใช้งาน" ตัวทำนาย2ม.ครั้งและเราจะคำนวณสถานะภายในตัวทำนายประมาณ2ม.(n-1)

แนวทางที่สอง

เราคำนวณ{Bผม}เป็นมาก่อน แต่เราไม่ได้อัปเดตสถานะภายในทำนายโดยใช้{Bผม}แต่{Aผม} } เราใช้ทั้งสองซีรีส์เท่านั้นในเวลาที่คำนวณฟังก์ชั่นการสูญเสียดังนั้นเราจะคำนวณสถานะภายในของตัวทำนายประมาณม.(n-1)

แน่นอนว่ามีการคำนวณน้อยกว่า (แม้ว่าอัลกอริธึมจะไม่ค่อยน่าสนใจเท่าไหร่) แต่ตอนนี้ก็ไม่สำคัญ

มีข้อสงสัย

ปัญหาคือ: จากมุมมองทางสถิติซึ่งเป็นตัวเลือก "ดีที่สุด"? และทำไม?

สัญชาตญาณของฉันบอกฉันว่าอันแรกดีกว่าเพราะมันช่วย "ปรับ" น้ำหนักที่เกี่ยวข้องกับสถานะภายในในขณะที่อีกอันที่สองช่วยปรับน้ำหนักที่เกี่ยวข้องกับอดีตอนุกรมเวลาที่สังเกตได้


เสริม:

  • มีแนวคิดอื่นใดที่ต้องเพิ่มข้อมูลสำหรับการพยากรณ์อนุกรมเวลาหรือไม่
  • น้ำหนักของข้อมูลสังเคราะห์ในชุดฝึกอบรมเป็นอย่างไร?

คำตอบ:


6

มีแนวคิดอื่นใดที่ต้องเพิ่มข้อมูลสำหรับการพยากรณ์อนุกรมเวลาหรือไม่

ฉันกำลังคิดเกี่ยวกับปัญหาเดียวกัน ฉันได้พบบทความ"ข้อมูลเพิ่มเติมสำหรับการจำแนกอนุกรมเวลาโดยใช้โครงข่ายประสาทเทียม"โดย Le Guennec และคณะ ซึ่งไม่ครอบคลุมการพยากรณ์อย่างไรก็ตาม ยังคงเป็นวิธีการเสริมที่กล่าวถึงมีลักษณะสัญญา ผู้เขียนสื่อสาร 2 วิธี:

การแบ่งส่วนหน้าต่าง (WS)

วิธีแรกที่ได้รับแรงบันดาลใจจากชุมชนการมองเห็นคอมพิวเตอร์ [8,10] ประกอบด้วยการแยกส่วนข้อมูลจากอนุกรมเวลาและการจำแนกประเภทที่ระดับชิ้น วิธีนี้ได้รับการแนะนำสำหรับอนุกรมเวลาใน [6] ในการฝึกอบรมแต่ละชิ้นที่แยกออกมาจากอนุกรมเวลาของคลาส y จะถูกกำหนดคลาสเดียวกันและตัวแยกประเภทจะเรียนรู้โดยใช้ชิ้น ขนาดของชิ้นเป็นพารามิเตอร์ของวิธีนี้ ในเวลาทดสอบแต่ละชิ้นจากชุดเวลาทดสอบจะถูกจัดประเภทโดยใช้ตัวจําแนกประเภทที่เรียนรู้และทำการลงคะแนนเสียงส่วนใหญ่เพื่อตัดสินใจเลือกฉลากที่คาดการณ์ไว้ วิธีการนี้เรียกว่าการแบ่งส่วนหน้าต่าง (WS) ในรายการต่อไปนี้

การแปรปรวนของหน้าต่าง (WW)

เทคนิคการเพิ่มข้อมูลล่าสุดที่เราใช้นั้นมีความเฉพาะเจาะจงมากขึ้นตามลำดับเวลา มันประกอบด้วยการแปรปรวนชิ้นแบบสุ่มของชุดเวลาโดยการเร่งมันขึ้นหรือลงดังที่แสดงในรูปที่ 2 ขนาดของชิ้นเดิมเป็นพารามิเตอร์ของวิธีนี้ รูปที่ 2 แสดงอนุกรมเวลาจากชุดข้อมูล“ ECG200” และข้อมูลที่แปลงแล้วที่สอดคล้องกัน โปรดทราบว่าวิธีนี้จะสร้างอนุกรมเวลาของความยาวที่แตกต่าง เพื่อจัดการกับปัญหานี้เราทำการแบ่งส่วนข้อมูลของหน้าต่างบนอนุกรมเวลาที่ถูกแปลงเพื่อให้ทุกคนมีความยาวเท่ากัน ในบทความนี้เราเพียงพิจารณาอัตราส่วนแปรปรวนเท่ากับ0.5หรือ2แต่สามารถใช้อัตราส่วนอื่น ๆ และอัตราส่วนที่เหมาะสมสามารถปรับได้ด้วยการตรวจสอบข้ามบนชุดฝึกอบรม ในต่อไปนี้วิธีนี้จะเรียกว่าการแปรปรวนของหน้าต่าง (WW)

รูปที่ 2 จากกระดาษ

ผู้เขียนเก็บชุด 90% ของการเปลี่ยนแปลง (เช่น WS ถูกกำหนดเป็นชิ้น 90% และสำหรับ WW 10% ของชุดถูกเหยเก) มีการรายงานวิธีการเพื่อลดข้อผิดพลาดในการจัดหมวดหมู่ข้อมูลซีรีย์ (เวลา) หลายประเภทยกเว้นการแสดงโครงร่างรูปภาพ 1D ผู้เขียนใช้ข้อมูลของพวกเขาจากที่นี่: http://timeseriesclassification.com

น้ำหนักของข้อมูลสังเคราะห์ในชุดฝึกอบรมเป็นอย่างไร?

ในการเสริมภาพเนื่องจากการเพิ่มไม่คาดว่าจะเปลี่ยนชั้นของภาพมันเป็นเรื่องธรรมดาที่จะทำให้น้ำหนักเป็นข้อมูลจริง การพยากรณ์อนุกรมเวลา (และการจำแนกอนุกรมเวลา) อาจแตกต่างกัน:

  1. อนุกรมเวลาไม่สามารถมองเห็นได้ง่ายว่าเป็นวัตถุที่ต่อเนื่องกันสำหรับมนุษย์ดังนั้นขึ้นอยู่กับว่าคุณยุ่งกับมันมากแค่ไหนมันยังคงเป็นคลาสเดียวกันหรือไม่? หากคุณหั่นและบิดงอเพียงเล็กน้อยและคลาสมีความแตกต่างทางสายตานี่อาจไม่เป็นปัญหาสำหรับงานการจำแนกประเภท
  2. สำหรับการคาดการณ์ฉันจะโต้แย้งว่า

    2.1 WS ยังคงเป็นวิธีที่ดี ไม่ว่าจะเป็น 90% - ส่วนใดของซีรี่ส์ที่คุณดูคุณจะยังคงคาดการณ์ตามกฎเดิม => น้ำหนักเต็ม

    2.2 WW: ยิ่งมันใกล้จะถึงจุดจบของซีรีส์ยิ่งฉันระมัดระวังมากเท่าไหร่ โดยสังหรณ์ใจฉันจะเกิดขึ้นกับปัจจัยน้ำหนักเลื่อนระหว่าง 0 (แปรปรวนในตอนท้าย) และ 1 (แปรปรวนในตอนเริ่มต้น) สมมติว่าคุณสมบัติล่าสุดของเส้นโค้งมีความเกี่ยวข้องมากที่สุด


6

มีแนวคิดอื่นใดที่ต้องเพิ่มข้อมูลสำหรับการพยากรณ์อนุกรมเวลาหรือไม่

อีกคำตอบด้วยวิธีการที่แตกต่างกันตาม"ชุดข้อมูลเพิ่มเติมในพื้นที่คุณลักษณะ"โดย DeVries และ Taylor

ในงานนี้เราแสดงให้เห็นว่าการอนุมานระหว่างตัวอย่างในพื้นที่คุณลักษณะสามารถใช้เพื่อเพิ่มชุดข้อมูลและปรับปรุงประสิทธิภาพของอัลกอริทึมการเรียนรู้แบบมีผู้สอน ประโยชน์หลักของวิธีการของเราคือมันไม่ขึ้นกับโดเมนโดยไม่ต้องมีความรู้เฉพาะและสามารถนำไปใช้กับปัญหาประเภทต่างๆได้

เสียงสัญญากับฉัน โดยหลักการแล้วคุณสามารถใช้โปรแกรมสร้างรหัสอัตโนมัติเพื่อสร้างการเป็นตัวแทนในพื้นที่คุณลักษณะ คุณสมบัติเหล่านี้สามารถแก้ไขหรือประมาณค่าได้

Jk'

กระดาษครอบคลุมการจำแนกตามลำดับอีกครั้งเท่านั้น แต่ IMO หลักการก็เหมือนกันสำหรับการวิเคราะห์การถดถอย คุณได้รับข้อมูลใหม่จากการกระจายอย่างคงที่เช่นเดียวกับข้อมูลจริงของคุณนั่นคือสิ่งที่คุณต้องการ

สถาปัตยกรรมของ AE เสริม

ถ้าเราทำอย่างละเอียดหลักการของการสร้างข้อมูลนี้โดยเครือข่ายประสาทต่อไปเราจะจบลงด้วยกำเนิดขัดแย้งเครือข่าย (GAN) พวกเขาสามารถใช้ในลักษณะเดียวกันเพื่อสร้างข้อมูลที่เพิ่มขึ้นซึ่งอาจเป็นวิธีที่ทันสมัยที่สุดในการทำเช่นนั้น


4

ฉันเพิ่งใช้วิธีอื่นที่ได้แรงบันดาลใจจากบทความนี้จาก Bergmeir, Hyndman และ Benitez

BB

ด้วยวิธีนี้สามารถสร้างอนุกรมเวลาเพิ่มเติมได้มากเท่าที่ต้องการซึ่งแสดงถึงอนุกรมเวลาเริ่มต้นค่อนข้างดี นี่คือตัวอย่างของแอปพลิเคชันเกี่ยวกับข้อมูลจริงเพื่อสร้างอนุกรมเวลาที่คล้ายกันเพิ่มเติม:

ซีรีย์ Augmented

ที่นี่การเติมเต็มจะแสดงโดยใช้การแปลง Yeo-johnson ไม่ใช่ Box Cox ตามที่แนะนำในกระดาษต้นฉบับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.