การวิเคราะห์อนุกรมเวลากับการเรียนรู้ของเครื่อง?


10

แค่คำถามทั่วไป หากคุณมีข้อมูลอนุกรมเวลาจะใช้เทคนิคอนุกรมเวลา (aka ARCH, GARCH และอื่น ๆ ) ได้อย่างไรเมื่อใช้เทคนิคการเรียนรู้ด้วยเครื่อง / สถิติ (KNN, การถดถอย) หากมีคำถามที่คล้ายกันที่มีอยู่ในการประเมินค่าข้ามจุดโปรดชี้ฉันไปทางนั้น - มองแล้วไม่สามารถหาคำถามได้


1
ที่เกี่ยวข้อง: cs.stackexchange.com/questions/13937/…
Anton Tarasenko

คำตอบ:


9

วิธีการเรียนรู้โดยทั่วไปของเครื่องสันนิษฐานว่าข้อมูลของคุณมีความเป็นอิสระและไม่เหมือนกันซึ่งไม่เป็นความจริงสำหรับข้อมูลอนุกรมเวลา ดังนั้นพวกเขาจึงเสียเปรียบเมื่อเทียบกับเทคนิคอนุกรมเวลาในแง่ของความแม่นยำ สำหรับตัวอย่างนี้ดูคำถามก่อนหน้านี้การเรียงลำดับของอนุกรมเวลาสำหรับการเรียนรู้ของเครื่องและฟอเรสต์แบบสุ่มมีมากเกินไป


ขอบคุณสำหรับคำตอบของคุณ ดูเหมือนว่าการเรียนรู้ของเครื่องจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ในข้อมูลมากขึ้นในขณะที่การวิเคราะห์อนุกรมเวลามีความกังวลมากขึ้นด้วยการระบุสาเหตุของข้อมูลได้อย่างถูกต้อง - นั่นคือปัจจัยสุ่มที่ส่งผลกระทบต่อมันอย่างไร คุณเห็นด้วยกับสิ่งนี้หรือไม่?
Nagy

4
ไม่ฉันจะไม่เห็นด้วยกับบทสรุปนั้น
Tom Minka

4

Francis Diebold เพิ่งโพสต์"ML และ Metrics VI: ความแตกต่างหลักระหว่าง ML และ TS Econometrics"ในบล็อกของเขา ฉันกำลังจัดทำเวอร์ชันย่อของมันดังนั้นเครดิตทั้งหมดไปถึงเขา (เน้นตัวหนาเป็นของฉัน)

[S] การเรียนรู้ของเครื่องจักรทาจิสติก (ML) และเศรษฐศาสตร์อนุกรมเวลา (TS) มีจำนวนมากเหมือนกัน แต่ยังมีความแตกต่างที่น่าสนใจ: ML ให้ความสำคัญกับการสร้างแบบจำลองที่ไม่ใช่พารามิเตอร์ที่ยืดหยุ่นสำหรับความไม่เชิงเส้นตรงแบบมีเงื่อนไขซึ่งไม่ได้มีบทบาทสำคัญใน TS < ... >

[T] นี่เป็นหลักฐานเพียงเล็กน้อยที่แสดงถึงความไม่เชิงเส้นตรงแบบมีเงื่อนไขที่สำคัญในการเปลี่ยนแปลงความแปรปรวนร่วมแบบคงที่ (de-trend, de-seasonized) พลศาสตร์ของอนุกรมเวลาทางเศรษฐกิจส่วนใหญ่ <... > จริง ๆ แล้วฉันสามารถนึกถึงความไม่เชิงเส้นแบบมีเงื่อนไขเพียงชนิดเดียวที่มีความสำคัญซ้ำ ๆ กันสำหรับอนุกรมเวลาทางเศรษฐกิจ (อย่างน้อยบางส่วน): พลวัตมาร์คอฟสลับสไตล์แฮมิลตัน

[แน่นอนว่ามีช้างที่ไม่ใช่เส้นตรงในห้อง: พลวัตประเภท GARCH แบบอิงเกิล สิ่งเหล่านี้มีความสำคัญอย่างมากในสาขาเศรษฐศาสตร์การเงินและบางครั้งก็เป็นเศรษฐมิติขนาดใหญ่ แต่ก็มีความแปรปรวนแบบมีเงื่อนไขไม่ใช่วิธีการที่มีเงื่อนไข]

ดังนั้นโดยทั่วไปมีเพียงสองโมเดลที่ไม่ใช่เชิงเส้นที่สำคัญใน TS และมีเพียงหนึ่งโมเดลเท่านั้นที่พูดถึงการเปลี่ยนแปลงแบบมีเงื่อนไข และทั้งสองอย่างนั้นมีทั้งพารามิเตอร์ที่เข้มงวดมากปรับให้เข้ากับคุณลักษณะเฉพาะของข้อมูลทางเศรษฐกิจและการเงิน

ดังนั้นข้อสรุปคือ:

ML เน้นฟังก์ชั่นค่าเฉลี่ยที่ไม่ใช่เชิงเส้นโดยประมาณในรูปแบบที่ไม่ใช่พารามิเตอร์ที่มีความยืดหยุ่นสูง สิ่งนี้กลายเป็นสิ่งที่ไม่จำเป็นเป็นสองเท่าใน TS: มีไม่เชิงเส้นตายไม่เชิงเงื่อนไขที่จะต้องกังวลและเมื่อมีบางครั้งก็มักจะเป็นธรรมชาติที่มีความเชี่ยวชาญสูงโดยประมาณที่ดีที่สุดในแฟชั่นที่มีความเชี่ยวชาญสูง .

ผมขอแนะนำให้อ่านโพสต์ต้นฉบับทั้งหมดที่นี่


+1 ฉันเห็นด้วยอย่างยิ่งกับคำตอบนี้ วิธีการทั่วไปของ ML นั้นมีลักษณะโดยการสร้างแบบจำลองที่ไม่ใช่พารามิเตอร์และมีข้อสมมติฐานที่ผ่อนคลายอย่างมากในขณะที่แบบจำลอง ARMA นั้นเป็น
Digio

2

@Tom Minka ชี้ให้เห็นว่าเทคนิค ML ส่วนใหญ่ถือว่าอินพุต iid มีวิธีแก้ปัญหาไม่กี่:

  1. เราสามารถใช้ตัวอย่างอนุกรมเวลาที่ผ่านมาทั้งหมดภายใน 'หน่วยความจำ' ของระบบเป็นเวกเตอร์ฟีเจอร์เดียวเช่น: x = [x (t-1), x (t-2), ... x (tM)] อย่างไรก็ตามเรื่องนี้มี 2 ประเด็น: 1) ขึ้นอยู่กับการ binning ของคุณคุณอาจมี vector ขนาดใหญ่ 2- วิธีการบางอย่างจำเป็นต้องใช้คุณสมบัติภายใน vector ของคุณสมบัติที่เป็นอิสระซึ่งไม่ใช่กรณีที่นี่

  2. มีเทคนิค ML มากมายที่ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลอนุกรมเวลาเช่น Hidden Markov Models ซึ่งถูกใช้อย่างประสบความสำเร็จในการตรวจจับการประมวลผลคำพูด ฯลฯ

  3. ในที่สุดแนวทางที่ฉันได้ทำคือการใช้เทคนิค 'การแยกคุณลักษณะ' เพื่อแปลงปัญหาการถดถอยแบบไดนามิก (ซึ่งมีองค์ประกอบของเวลา) เป็นแบบคงที่ ตัวอย่างเช่นวิธีการของ Principal Dynamics Mode (PDM) จะแมปเวกเตอร์คุณลักษณะการป้อนข้อมูลในอดีต ([x (t-1), x (t-2), ... x (tM)]) เข้ากับสแตติกหนึ่ง ([v () 1), v (2), .. v (L)] โดยการโน้มน้าวอดีตด้วยตัวกรองเชิงเส้นระบบเฉพาะ (PDMs), ดู Marmarelis, 2004 หนังสือหรือ Marmarelis, Vasilis Z "วิธีการสร้างแบบจำลองสำหรับระบบทางสรีรวิทยาไม่เชิงเส้น ." พงศาวดารของวิศวกรรมชีวการแพทย์ 25.2 (1997): 239-251 ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.