วิธีที่ดีที่สุดสำหรับช่วงเวลาสั้น ๆ


35

ฉันมีคำถามที่เกี่ยวข้องกับการสร้างแบบจำลองชุดเวลาสั้น ๆ มันไม่ได้เป็นคำถามว่าจะสร้างแบบจำลองแต่ได้อย่างไร คุณจะแนะนำวิธีใดในการสร้างแบบจำลอง (มาก) ช่วงเวลาสั้น ๆ (พูดถึงความยาว ) โดย "ดีที่สุด" ฉันหมายถึงที่นี่ว่าแข็งแกร่งที่สุดนั่นคือโอกาสที่จะเกิดข้อผิดพลาดน้อยที่สุดเนื่องจากการสังเกตจำนวน จำกัด ด้วยการสังเกตแบบสั้นชุดเดียวอาจมีผลต่อการคาดการณ์ดังนั้นวิธีการนี้ควรให้การประมาณข้อผิดพลาดที่รอบคอบและความแปรปรวนที่อาจเกิดขึ้นซึ่งเชื่อมต่อกับการคาดการณ์ โดยทั่วไปฉันสนใจชุดเวลา univariate แต่ก็น่าสนใจที่จะรู้เกี่ยวกับวิธีการอื่นT20


หน่วยเวลาคืออะไร? คุณสามารถโพสต์ข้อมูลได้หรือไม่
Dimitriy V. Masterov

8
ไม่ว่าคุณจะทำอะไรก็ตาม - เกี่ยวกับฤดูกาลความคงที่และค. - ซีรีย์ช่วงเวลาสั้น ๆ จะให้โอกาสคุณตรวจจับเฉพาะการละเมิดที่ชัดแจ้งมากที่สุดเท่านั้น ดังนั้นสมมติฐานควรได้รับการพิสูจน์อย่างดีในความรู้ด้านโดเมน คุณจำเป็นต้องสร้างแบบจำลองหรือเพื่อทำการคาดการณ์หรือไม่? การแข่งขัน M3 เปรียบเทียบวิธีการพยากรณ์ "อัตโนมัติ" แบบต่างๆในซีรีย์จากหลากหลายโดเมนบางตัวสั้นเพียง 20.
Scortchi - Reinstate Monica

5
+1 ถึง @ Scortchi ความคิดเห็น อนึ่งจากซีรี่ส์ 3,003 M3 (มีอยู่ในMcompแพ็คเกจสำหรับ R) 504 มีการสำรวจ 20 ครั้งหรือน้อยกว่าโดยเฉพาะ 55% ของซีรี่ส์รายปี ดังนั้นคุณสามารถค้นหาสิ่งพิมพ์ต้นฉบับและดูว่าอะไรทำงานได้ดีสำหรับข้อมูลรายปี หรือแม้แต่ขุดผ่านการคาดการณ์ดั้งเดิมที่ส่งไปยังการแข่งขัน M3 ซึ่งมีอยู่ในMcompแพ็คเกจ (รายการM3Forecast)
S. Kolassa - Reinstate Monica

สวัสดีฉันจะไม่เพิ่มคำตอบใด ๆ แต่เพียงแบ่งปันบางสิ่งเกี่ยวกับคำถามที่ฉันหวังว่ามันจะช่วยให้ผู้อื่นเข้าใจปัญหาได้ที่นี่: เมื่อคุณพูดถึงคำตอบที่แข็งแกร่งนั่นเป็นโอกาสที่จะเกิดข้อผิดพลาดน้อยที่สุด จำนวนการสังเกต ฉันเชื่อว่าความแข็งแกร่งเป็นแนวคิดสำคัญในสถิติและนี่เป็นสิ่งสำคัญเนื่องจากมีข้อมูลน้อยมากการสร้างแบบจำลองใด ๆ จะขึ้นอยู่กับสมมติฐานของตัวแบบหรือตัวผิดปกติ ด้วยความแข็งแกร่งคุณทำให้ข้อ จำกัด นี้แข็งแกร่งน้อยลงไม่อนุญาตให้มีข้อ จำกัด ในการ จำกัด ผลลัพธ์ของคุณ ฉันหวังว่านี่จะช่วยได้.
Tommaso Guerrini

2
@TommasoGuerrini วิธีการที่แข็งแกร่งไม่ได้ทำให้สมมติฐานน้อยลงพวกเขาทำให้สมมติฐานที่แตกต่าง
ทิม

คำตอบ:


31

มันเป็นเรื่องธรรมดามากสำหรับวิธีการคาดการณ์ที่ง่ายมากเช่น "การพยากรณ์ค่าเฉลี่ยในอดีต" เพื่อให้ได้วิธีที่ซับซ้อนกว่า นี่เป็นโอกาสที่มากขึ้นสำหรับซีรี่ส์เวลาสั้น ๆ ใช่โดยหลักการแล้วคุณสามารถใส่แบบจำลอง ARIMA หรือแบบจำลองที่ซับซ้อนมากขึ้นให้กับการสังเกตการณ์ 20 ครั้งหรือน้อยกว่านั้นได้

ดังนั้น: เริ่มต้นด้วยมาตรฐานที่เรียบง่ายเช่น

  • ค่าเฉลี่ยในอดีต
  • ค่ามัธยฐานทางประวัติศาสตร์เพื่อเพิ่มความทนทาน
  • การเดินแบบสุ่ม (คาดการณ์การสังเกตครั้งสุดท้าย)

ประเมินสิ่งเหล่านี้จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง เปรียบเทียบแบบจำลองที่ซับซ้อนยิ่งกว่ากับมาตรฐานเหล่านี้ คุณอาจประหลาดใจที่เห็นว่ายากแค่ไหนที่จะมีประสิทธิภาพสูงกว่าวิธีการง่ายๆเหล่านี้ นอกจากนี้การเปรียบเทียบความทนทานของวิธีการที่แตกต่างกันกับคนที่ง่ายๆเหล่านี้เช่นโดยไม่เพียง แต่การประเมินเฉลี่ยความถูกต้องออกจากกลุ่มตัวอย่าง แต่ยังแปรปรวนข้อผิดพลาดโดยใช้ของคุณวัดข้อผิดพลาดที่ชื่นชอบ

ใช่อย่างที่Rob Hyndman เขียนไว้ในโพสต์ของเขาว่าการเชื่อมโยงของอเล็กซานเดอร์การทดสอบนอกกลุ่มตัวอย่างเป็นปัญหาในตัวเองสำหรับซีรี่ส์สั้น - แต่จริงๆแล้วไม่มีทางเลือกที่ดีเลย ( อย่าใช้แบบพอดีในตัวอย่างซึ่งเป็นแนวทางในการพยากรณ์ความแม่นยำ ) AIC จะไม่ช่วยคุณในการคำนวณค่ามัธยฐานและการเดินแบบสุ่ม อย่างไรก็ตามคุณสามารถใช้การตรวจสอบความถูกต้องไขว้ของอนุกรมเวลาซึ่ง AIC นั้นใกล้เคียงกัน


เพิ่งค้นพบคำตอบของคุณ (+1) ฉันได้แสดงความคิดเห็นอื่นในกรณีที่คุณสนใจและต้องการชี้แจง
Aleksandr Blekh

17

ฉันใช้คำถามอีกครั้งเป็นโอกาสในการเรียนรู้เพิ่มเติมเกี่ยวกับอนุกรมเวลา - หนึ่งในหัวข้อ (หลาย ๆ ) ที่ฉันสนใจ หลังจากการวิจัยสั้น ๆ ดูเหมือนว่ามีหลายวิธีในการแก้ปัญหาของการสร้างแบบจำลองชุดเวลาสั้น ๆ

วิธีแรกคือการใช้แบบจำลองอนุกรมเวลามาตรฐาน / เชิงเส้น (AR, MA, ARMA ฯลฯ ) แต่ให้ความสนใจกับพารามิเตอร์บางอย่างตามที่อธิบายไว้ในโพสต์นี้ [1] โดย Rob Hyndman ที่ไม่จำเป็นต้องมีการแนะนำใน อนุกรมเวลาและโลกพยากรณ์ วิธีที่สองอ้างถึงโดยส่วนใหญ่ของวรรณกรรมที่เกี่ยวข้องที่ฉันได้เห็นแนะนำให้ใช้แบบจำลองอนุกรมเวลาที่ไม่ใช่เชิงเส้นโดยเฉพาะอย่างยิ่งแบบจำลองเกณฑ์ [2] ซึ่งรวมถึงแบบจำลองธรณีประตูอัตโนมัติ (TAR) , TAR ตัวเองออกจาก ( SETAR) , เกณฑ์อัตย้ายรูปแบบเฉลี่ย (Tarma)และTARMAXรุ่นซึ่งทอดตัวTARแบบจำลองไปยังอนุกรมเวลาภายนอก ภาพรวมที่ยอดเยี่ยมของโมเดลอนุกรมเวลาที่ไม่ใช่เชิงเส้นรวมถึงแบบจำลองขีด จำกัด สามารถพบได้ในบทความนี้ [3] และบทความนี้ [4]

สุดท้ายอื่นที่เกี่ยวข้อง IMHO วิจัย [5] อธิบายวิธีการที่น่าสนใจซึ่งจะขึ้นอยู่กับVolterra-เนอร์เป็นตัวแทนของระบบที่ไม่ใช่เชิงเส้น - เห็นนี้ [6] และนี้ [7] วิธีการนี้เป็นที่ถกเถียงกันจะดีกว่าเทคนิคอื่น ๆ ในบริบทของชุดเวลาสั้น ๆ และมีเสียงดัง

อ้างอิง

  1. Hyndman, R. (4 มีนาคม 2014) รุ่นที่เหมาะสมกับซีรีย์ช่วงเวลาสั้น ๆ [โพสต์บล็อก]. เรียกดูจากhttp://robjhyndman.com/hyndsight/short-time-series
  2. มหาวิทยาลัยแห่งรัฐเพนซิลเวเนีย (2015) โมเดลเกณฑ์ [วัสดุหลักสูตรออนไลน์] STAT 510 การวิเคราะห์อนุกรมเวลา เรียกดูจากhttps://onlinecourses.science.psu.edu/stat510/node/82
  3. Zivot, E. (2006) รุ่นอนุกรมเวลาที่ไม่ใช่เชิงเส้น [บันทึกของชั้นเรียน] ECON 584 เศรษฐมิติอนุกรมเวลา มหาวิทยาลัยวอชิงตัน ดึงจากhttp://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf
  4. เฉิน, CWS, ดังนั้น, MKP, & Liu, F.-C (2011) การทบทวนโมเดลอนุกรมเวลาขีด จำกัด ในด้านการเงิน สถิติและส่วนต่อประสาน, 4 , 167–181 สืบค้นจากhttp://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Barahona, M. , & Poon, C.-S. (1996) การตรวจจับพลศาสตร์ไม่เชิงเส้นของอนุกรมเวลาสั้นและมีเสียงดัง ธรรมชาติ, 381 , 215-217 สืบค้นจากhttp://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. Franz, MO (2011) ชุด Volterra และ Wiener Scholarpedia, 6 (10): 11307 สืบค้นจากhttp://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Franz, MO, & Scholkopf, B. (nd) มุมมองรวมของทฤษฎี Wiener และ Volterra และการถดถอยเคอร์เนลของพหุนาม เรียกดูจากhttp://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf

4
+1 คุณจะช่วยเขียนเอกสารอ้างอิงเหล่านี้ในคำตอบของคุณได้ไหม? เราได้รับการค้นพบเมื่อเร็ว ๆ นี้ว่าการเชื่อมโยงไปยังเอกสารจำนวนมากเน่าหลังจากในขณะที่ในที่สุดทำให้พวกเขาเกือบไร้ประโยชน์เว้นแต่ผู้เขียนกระดาษชื่อและอื่น ๆ นอกจากนี้ยังกล่าวถึงในข้อความ
whuber

2
@whuber: ขอบคุณ ไม่มีปัญหาเลยฉันจะอัปเดตคำตอบของฉันพร้อมอ้างอิงตอนเย็นนี้
Aleksandr Blekh

2
+1 สำหรับลิงก์ไปยังโพสต์ของ Rob Hyndman ( แต่ฉันอยากจะ -1 สำหรับโมเดลที่ซับซ้อน. ฉันจะมากระวังการใช้เกณฑ์หรือวิธีการอื่น ๆ ชุดใดก็ได้ไม่เชิงเส้นในอนุกรมเวลาน้อยกว่า 20 สังเกต. คุณเกือบบางอย่างที่จะ overfit ซึ่งจะไปตรงเคาน์เตอร์ ตามข้อกำหนดของ OP ของวิธีการที่แข็งแกร่ง )
S. Kolassa - Reinstate Monica

3
[2,3,4] ไม่พูดถึงอนุกรมเวลาสั้น ๆ และดูแผนการใน [2]:> 120 การสังเกต [4] มุ่งเน้นไปที่การเงินซึ่งคุณมีการสังเกตมากกว่า 20 ครั้ง [5] เขียนเกี่ยวกับ "อนุกรมเวลาสั้น ๆ โดยทั่วไปยาว 1,000 คะแนน" (หน้า 216) ฉันไม่เห็นวิธีที่จะเชื่อถือได้และพอดีกับ TAR หรือโมเดลที่คล้ายกันหรือเชื่อถือได้และซับซ้อนกว่าที่คุณเชื่อมโยงด้วยการสังเกต <20 (BTW: ฉันยังทำสถิติเชิงอนุมานที่ด้านข้างและด้วยการสังเกตน้อยกว่า 20 ข้อคุณไม่สามารถประมาณได้มากกว่าค่าเฉลี่ยและอีกหนึ่งพารามิเตอร์)
S. Kolassa - Reinstate Monica

5
คุณยินดี ;-) ฉันเดาว่า Takeaway ก็คือ "สั้น" นั้นขึ้นอยู่กับบริบทมาก: สำหรับชุดอ่านเซ็นเซอร์หรือในทางการเงินจุดข้อมูล 1,000 จุดเป็น "สั้น" - แต่ในการจัดการห่วงโซ่อุปทานการสังเกตรายเดือน 20 ครั้งเกือบปกติ และ "สั้น" จะเริ่มต้นที่ 12 หรือน้อยกว่าการสังเกต
S. Kolassa - Reinstate Monica

11

T20

วิธีการเชิงคุณภาพดังต่อไปนี้ทำงานได้ดีในทางปฏิบัติสำหรับข้อมูลที่สั้นมากหรือไม่มีเลย:

  • การคาดการณ์แบบรวม
  • การสำรวจ
  • วิธีการ Delphi
  • อาคารจำลอง
  • พยากรณ์โดยการเปรียบเทียบ
  • ความคิดเห็นของผู้บริหาร

หนึ่งในวิธีที่ดีที่สุดที่ฉันรู้ว่าทำงานได้ดีมากคือการใช้analogues แบบมีโครงสร้าง (อันดับที่ 5 ในรายการด้านบน) ที่คุณมองหาผลิตภัณฑ์ที่คล้ายกัน / คล้ายคลึงกันในหมวดหมู่ที่คุณพยายามคาดการณ์และใช้เพื่อพยากรณ์การพยากรณ์ระยะสั้น . ดูบทความนี้สำหรับตัวอย่างและเอกสาร SASเกี่ยวกับ "วิธีการ" ทำสิ่งนี้โดยใช้หลักสูตร SAS ข้อ จำกัด อย่างหนึ่งคือการพยากรณ์โดยการเปรียบเทียบจะใช้งานได้เฉพาะคุณเท่านั้นที่มีการเปรียบเทียบที่ดีมิฉะนั้นคุณสามารถพึ่งพาการคาดการณ์การตัดสินใจ นี่คือวิดีโออื่นจากซอฟต์แวร์ Forecastpro เกี่ยวกับวิธีการใช้เครื่องมือเช่น Forecastpro เพื่อทำการพยากรณ์โดยการเปรียบเทียบ การเลือกการเปรียบเทียบเป็นศิลปะมากกว่าวิทยาศาสตร์และคุณต้องการความเชี่ยวชาญด้านโดเมนเพื่อเลือกผลิตภัณฑ์ / สถานการณ์แบบอะนาล็อก

สองแหล่งข้อมูลที่ยอดเยี่ยมสำหรับการคาดการณ์ผลิตภัณฑ์ทั้งสั้นและใหม่:

  • หลักการพยากรณ์โดยอาร์มสตรอง
  • การพยากรณ์ผลิตภัณฑ์ใหม่โดย Kahn

ต่อไปนี้มีวัตถุประสงค์เพื่อเป็นตัวอย่างฉันเพิ่งอ่านสัญญาณและเสียงรบกวนโดย Nate Silver ซึ่งเป็นตัวอย่างที่ดีเกี่ยวกับฟองสบู่ในตลาดที่อยู่อาศัยของสหรัฐและญี่ปุ่น ในแผนภูมิด้านล่างหากคุณหยุดที่จุดข้อมูล 10 จุดและใช้วิธีการคาดการณ์อย่างใดอย่างหนึ่ง (การอธิบายอย่างชาญฉลาด / ets / arima ... ) และดูว่ามันจะพาคุณไปที่ไหนและจุดสิ้นสุดที่เกิดขึ้นจริง ตัวอย่างที่ฉันนำเสนออีกครั้งนั้นซับซ้อนกว่าการคาดการณ์แนวโน้มอย่างง่าย นี่เป็นเพียงการเน้นความเสี่ยงของการคาดการณ์แนวโน้มโดยใช้จุดข้อมูลที่ จำกัด นอกจากนี้หากผลิตภัณฑ์ของคุณมีรูปแบบตามฤดูกาลคุณต้องใช้สถานการณ์ผลิตภัณฑ์แบบอะนาล็อกบางรูปแบบในการคาดการณ์ ฉันอ่านบทความที่ฉันคิดว่าในงานวิจัยวารสารธุรกิจว่าถ้าคุณมียอดขายสินค้าในร้านขายยา 13 สัปดาห์คุณสามารถทำนายข้อมูลได้อย่างแม่นยำมากขึ้นโดยใช้ผลิตภัณฑ์แบบอะนาล็อก

ป้อนคำอธิบายรูปภาพที่นี่


ขอบคุณสำหรับการชี้ให้เห็นแนวทางที่แตกต่าง! และฉันก็เห็นด้วยว่าหนังสือเนทซิลเวอร์สโตนนั้นยอดเยี่ยมมาก
ทิม

5

การสันนิษฐานว่าจำนวนการสังเกตมีความสำคัญมาจากความคิดเห็นนอกกรอบโดย GEP Box เกี่ยวกับขนาดตัวอย่างขั้นต่ำในการระบุรูปแบบ คำตอบที่เหมาะสมยิ่งขึ้นเท่าที่ฉันกังวลคือปัญหา / คุณภาพของการระบุตัวแบบไม่ได้ขึ้นอยู่กับขนาดของกลุ่มตัวอย่างเพียงอย่างเดียว แต่อัตราส่วนของสัญญาณต่อสัญญาณรบกวนที่อยู่ในข้อมูล หากคุณมีอัตราส่วนสัญญาณต่อสัญญาณรบกวนที่แข็งแกร่งคุณต้องมีการสังเกตน้อยลง หากคุณมีค่าต่ำ s / n คุณจำเป็นต้องมีตัวอย่างเพิ่มเติมเพื่อระบุ หากชุดข้อมูลของคุณเป็นรายเดือนและคุณมีค่า 20 ค่าคุณจะไม่สามารถระบุรูปแบบตามฤดูกาลได้อย่างชัดเจนถ้าคุณคิดว่าข้อมูลอาจเป็นไปตามฤดูกาลคุณสามารถเริ่มกระบวนการสร้างแบบจำลองได้โดยการระบุ ar (12) จากนั้นทำการวิเคราะห์แบบจำลอง การทดสอบนัยสำคัญ) เพื่อลดหรือขยายโมเดลที่มีโครงสร้างไม่เพียงพอของคุณ


5

ด้วยข้อมูลที่ จำกัด มากฉันจะมีความโน้มเอียงที่จะปรับข้อมูลให้เหมาะสมโดยใช้เทคนิคแบบเบย์

การหยุดนิ่งอาจเป็นเรื่องยุ่งยากเล็กน้อยเมื่อจัดการกับโมเดลอนุกรมเวลาแบบเบย์ ทางเลือกหนึ่งคือการบังคับใช้ข้อ จำกัด เกี่ยวกับพารามิเตอร์ หรือคุณไม่สามารถ นี่เป็นเรื่องปกติถ้าคุณต้องการดูการกระจายของพารามิเตอร์ อย่างไรก็ตามหากคุณต้องการสร้างการคาดการณ์หลังคุณอาจมีการพยากรณ์มากมายที่ระเบิด

เอกสารประกอบของ Stan ให้ตัวอย่างสองสามข้อที่พวกเขาวางข้อ จำกัด เกี่ยวกับพารามิเตอร์ของตัวแบบอนุกรมเวลาเพื่อความมั่นใจในความคงที่ สิ่งนี้เป็นไปได้สำหรับรุ่นที่ค่อนข้างเรียบง่ายที่ใช้ แต่อาจเป็นไปไม่ได้ในรูปแบบอนุกรมเวลาที่ค่อนข้างซับซ้อน หากคุณต้องการบังคับใช้ stationarity จริงๆคุณสามารถใช้อัลกอริทึม Metropolis-Hastings และโยนสัมประสิทธิ์ที่ไม่เหมาะสม อย่างไรก็ตามต้องมีการคำนวณค่าลักษณะเฉพาะจำนวนมากซึ่งจะทำให้สิ่งต่าง ๆ ช้าลง


0

ปัญหาในขณะที่คุณชี้ให้เห็นอย่างชาญฉลาดคือ "overfitting" ที่เกิดจากขั้นตอนตามรายการคงที่ วิธีที่ชาญฉลาดคือการพยายามทำให้สมการง่ายขึ้นเมื่อคุณมีข้อมูลจำนวนเล็กน้อย ฉันได้พบกับดวงจันทร์มากมายว่าถ้าคุณเพียงแค่ใช้แบบจำลอง AR (1) และปล่อยให้อัตราการปรับตัว (ค่าสัมประสิทธิ์เท่) กับข้อมูลที่สิ่งต่าง ๆ สามารถทำได้ดีพอสมควร ตัวอย่างเช่นถ้าค่าสัมประสิทธิ์เท่ประมาณใกล้กับศูนย์นี่หมายความว่าค่าเฉลี่ยโดยรวมจะเหมาะสม ถ้าค่าสัมประสิทธิ์อยู่ใกล้ +1.0 นี่หมายความว่าค่าสุดท้าย (ปรับค่าคงที่เหมาะสมกว่าถ้าค่าสัมประสิทธิ์ใกล้ถึง -1.0 ค่าลบของค่าสุดท้าย (ปรับค่าคงที่) จะเป็นการพยากรณ์ที่ดีที่สุด หากค่าสัมประสิทธิ์เป็นอย่างอื่นก็หมายความว่าค่าเฉลี่ยถ่วงน้ำหนักของอดีตที่ผ่านมามีความเหมาะสม

นี่คือสิ่งที่ AUTOBOX ขึ้นต้นด้วยแล้วละทิ้งความผิดปกติเพราะมันจะปรับค่าพารามิเตอร์โดยประมาณเมื่อพบ "ข้อสังเกตเล็ก ๆ "

นี่คือตัวอย่างของ "ศิลปะแห่งการพยากรณ์" เมื่อวิธีการขับเคลื่อนข้อมูลที่บริสุทธิ์อาจไม่เหมาะสม

ต่อไปนี้เป็นรูปแบบอัตโนมัติที่พัฒนาขึ้นสำหรับจุดข้อมูล 12 จุดโดยไม่ต้องกังวลกับความผิดปกติ ป้อนคำอธิบายรูปภาพที่นี่ด้วยจริง / พอดีและพยากรณ์ที่นี่ป้อนคำอธิบายรูปภาพที่นี่และพล็อตที่เหลือที่นี่ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.