วิธีการจัดการกับอนุกรมเวลาที่เปลี่ยนแปลงในฤดูกาลหรือรูปแบบอื่น ๆ ?


22

พื้นหลัง

ฉันกำลังทำงานเกี่ยวกับชุดข้อมูลเวลาของการอ่านมาตรวัดพลังงาน ความยาวของซีรีย์แตกต่างกันไปตามเมตร - สำหรับบางคนที่ฉันมีหลายปีอื่น ๆ เพียงไม่กี่เดือน ฯลฯ หลายคนแสดงฤดูกาลที่สำคัญและมักจะหลายชั้น - ภายในวันสัปดาห์หรือปี

หนึ่งในสิ่งที่ฉันได้ทำคือการจัดกลุ่มของอนุกรมเวลาเหล่านี้ งานของฉันเป็นงานวิชาการในขณะนี้และในขณะที่ฉันทำการวิเคราะห์ข้อมูลอื่น ๆ เช่นกันฉันมีเป้าหมายที่เฉพาะเจาะจงในการทำคลัสเตอร์บางอย่าง

ฉันเริ่มงานแรกโดยที่ฉันคำนวณคุณสมบัติต่าง ๆ (เปอร์เซ็นต์ที่ใช้ในวันหยุดสุดสัปดาห์กับวันทำงานเปอร์เซ็นต์ที่ใช้ในช่วงเวลาต่าง ๆ เป็นต้น) จากนั้นฉันก็ไปดูที่การใช้ Dynamic Time Warping (DTW) เพื่อให้ได้ระยะห่างระหว่างซีรีย์ที่แตกต่างกันและการจัดกลุ่มตามค่าที่แตกต่างกันและฉันก็พบเอกสารหลายฉบับที่เกี่ยวข้องกับเรื่องนี้

คำถาม

การเปลี่ยนแปลงตามฤดูกาลในซีรีส์ที่ระบุจะทำให้การจัดกลุ่มของฉันไม่ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นฉันจะจัดการกับมันได้อย่างไร

ความกังวลของฉันคือระยะทางที่ได้รับจาก DTW อาจทำให้เข้าใจผิดในกรณีที่รูปแบบในอนุกรมเวลาเปลี่ยนไป สิ่งนี้อาจนำไปสู่การทำคลัสเตอร์ที่ไม่ถูกต้อง

ในกรณีที่ข้างต้นไม่ชัดเจนให้พิจารณาตัวอย่างเหล่านี้:

ตัวอย่างที่ 1

มาตรวัดมีการอ่านค่าต่ำตั้งแต่เที่ยงคืนจนถึง 8 โมงเช้าการอ่านเพิ่มขึ้นอย่างรวดเร็วในชั่วโมงถัดไปและอยู่สูงจาก 9.00 น. ถึง 17.00 น. จากนั้นลดลงอย่างรวดเร็วในชั่วโมงถัดไปจากนั้นพักต่ำจาก 18.00 น. จนถึงเที่ยงคืน มิเตอร์ยังคงรูปแบบนี้อย่างต่อเนื่องทุกวันเป็นเวลาหลายเดือน แต่จากนั้นเปลี่ยนเป็นรูปแบบที่การอ่านอยู่ในระดับสม่ำเสมอตลอดทั้งวัน

ตัวอย่างที่ 2

เมตรจะแสดงปริมาณพลังงานที่ใช้ไปในแต่ละเดือนโดยประมาณ หลังจากผ่านไปหลายปีมันจะเปลี่ยนเป็นรูปแบบที่การใช้พลังงานจะสูงขึ้นในช่วงฤดูร้อนก่อนที่จะกลับสู่ปริมาณปกติ

ทิศทางที่เป็นไปได้

  • ฉันสงสัยว่าฉันสามารถเปรียบเทียบอนุกรมเวลาทั้งหมดต่อไปหรือไม่ แต่แยกพวกเขาและพิจารณาพวกเขาเป็นชุดแยกต่างหากหากรูปแบบมีการเปลี่ยนแปลงอย่างมาก อย่างไรก็ตามในการทำเช่นนี้ฉันจะต้องสามารถตรวจจับการเปลี่ยนแปลงดังกล่าวได้ นอกจากนี้ฉันไม่ทราบว่านี่เป็นวิธีที่เหมาะสมหรือทำงานกับข้อมูล
  • ฉันยังพิจารณาแยกข้อมูลและพิจารณาว่าเป็นอนุกรมเวลาแยกกันมาก ตัวอย่างเช่นฉันสามารถพิจารณาการรวมกันทุกวัน / เมตรเป็นชุดแยก อย่างไรก็ตามฉันต้องทำเช่นเดียวกันหากฉันต้องการพิจารณารูปแบบรายสัปดาห์ / เดือน / รายปี ฉันคิดว่ามันจะใช้งานได้ แต่มันอาจจะค่อนข้างลำบากและฉันก็ไม่ชอบที่จะเดินไปตามทางนี้หากมีวิธีที่ดีกว่าที่ฉันพลาดไป

หมายเหตุเพิ่มเติม

นี่คือสิ่งที่เกิดขึ้นในความคิดเห็นหรือสิ่งที่ฉันคิดว่าเป็นเพราะความคิดเห็นซึ่งอาจเกี่ยวข้อง ฉันกำลังวางมันไว้ที่นี่เพื่อที่ผู้คนไม่ต้องอ่านทุกอย่างเพื่อรับข้อมูลที่เกี่ยวข้อง

  • ฉันทำงานใน Python แต่มี rpy สำหรับสถานที่เหล่านั้นที่ R เหมาะสมกว่า ฉันไม่จำเป็นต้องมองหาคำตอบของ Python - หากใครบางคนมีคำตอบที่ใช้งานได้จริงฉันควรทำอย่างไรหากฉันมีความสุข
  • ฉันมีการทำงานของรหัส "ร่างคร่าว ๆ " - ฉันทำบางอย่างเกี่ยวกับ DTW ฉันได้ทำการจัดกลุ่มแบบต่าง ๆ สองสามแบบฉันคิดว่าฉันเข้าใจทิศทางที่ฉันกำลังทำอยู่ m การค้นหาจริงๆเกี่ยวข้องกับวิธีที่ฉันประมวลผลข้อมูลของฉันก่อนค้นหาระยะทาง, เรียกใช้การจัดกลุ่มและอื่น ๆ ด้วยเหตุนี้ฉันคิดว่าคำตอบจะเหมือนกันไม่ว่าจะคำนวณระยะทางระหว่างอนุกรมผ่านทาง DTW หรือ Euclidean Distance (ED) ที่เรียบง่ายขึ้น
  • ฉันได้พบเอกสารเหล่านี้โดยเฉพาะอย่างยิ่งให้ข้อมูลเกี่ยวกับอนุกรมเวลาและ DTW และพวกเขาอาจเป็นประโยชน์หากจำเป็นต้องมีพื้นหลังบางส่วนในพื้นที่หัวข้อ: http://www.cs.ucr.edu/~eamonn/selected_publications.htm

+1 คำถามที่ดีมากและเป็นเรื่องดีที่ได้เห็นความกระตือรือร้นอย่างมาก! ฉันคิดว่าคุณสามารถจดคำถามของคุณได้เล็กน้อยดังนั้นจึงเป็นการเชิญชวนให้คนอื่น ๆ อ่านแล้วให้คำตอบ
รูเบนส์

@ Rubens ขอบคุณ! ฉันจะกลับมาทำงานอีกครั้งเมื่อฉันกลับถึงบ้านในเย็นวันนี้ฉันสามารถดูว่ามันจะมีประโยชน์ที่จะรวมข้อมูลเพิ่มเติมเกี่ยวกับวิธีการที่ฉันได้มาถึงจุดนี้และทำไม ฉันกังวลว่ามันจะยาวเกินไป แต่ฉันจะแยกแบ็คกราวน์ออกและตั้งคำถามอีกเล็กน้อยเพื่อหลีกเลี่ยงการทำให้อ่านไม่ได้
Jo Douglass

มันอาจไม่ใช่คำถาม "สถิติบริสุทธิ์" แต่ต้องการคำตอบสถิติบริสุทธิ์ คุณจะต้องดิ้นรนจนกว่าคุณจะสามารถคิดถึงมันในแง่ของสถิติที่บริสุทธิ์
Spacedman

@ Spacerman - ฉันยินดีต้อนรับคำตอบในลักษณะใดก็ตามที่ผู้คนรู้สึกว่าเป็นวิธีที่ดีที่สุดในการตอบโดยข้อแม้ที่ฉันอาจมีคำถามเพิ่มเติมหากคำตอบนั้นหนักในสูตรหรือการอ้างอิงถึงแนวคิดทางสถิติที่ฉันยังไม่เข้าใจ
Jo Douglass

โจคุณค้นหาคำตอบที่ถูกต้องสำหรับคำถามของคุณแล้วหรือยัง? ฉันอยู่ในสถานการณ์เดียวกันและต้องการความช่วยเหลือ ขอบคุณ
LSola

คำตอบ:


14

หลังจากที่ได้อ่านคำถามของคุณผมก็อยากรู้อยากเห็นเกี่ยวกับหัวข้อของการจัดกลุ่มอนุกรมเวลาและการแปรปรวนเวลาแบบไดนามิก (DTW) ดังนั้นฉันได้ทำการค้นหาอย่าง จำกัด และเกิดความเข้าใจพื้นฐาน (สำหรับฉัน) และการอ้างอิงที่เกี่ยวข้องกับ IMHO ชุดต่อไปนี้(สำหรับคุณ) ฉันหวังว่าคุณจะพบว่ามีประโยชน์นี้ แต่โปรดจำไว้ว่าฉันได้ข้ามบทความวิจัยอย่างตั้งใจเพราะฉันสนใจในแง่มุมต่างๆของหัวข้อนี้

แหล่งข้อมูล:


1
จำนวนทรัพยากรเหล่านี้เป็นทรัพยากรที่ฉันได้ดู - ฉันใช้งานเวอร์ชันที่แก้ไขแล้วในจุดที่ 2 และ 4 - ดังนั้นเราอาจอยู่ในหน้าเดียวกันตอนนี้ และส่วนใหญ่ของสิ่งที่ฉันรู้อยู่บนพื้นฐานของเอกสารหรือบทความของ Eamonn Keogh ตามพวกเขา แต่มีบางอย่างที่นี่ที่ฉันไม่ได้อ่านและสิ่งที่เกี่ยวกับการจัดกลุ่มอนุกรมเวลาของจักรยานนั้นน่าสนใจขอบคุณมาก! ฉันไม่เห็นสิ่งใดที่ตอบคำถามของฉันโดยเฉพาะ แต่ชี้ให้เห็นถ้าฉันพลาดอะไรบางอย่างขณะอ่าน
Jo Douglass

1
นอกจากนี้หากคุณยังพบสิ่งที่น่าสนใจเอกสารของ Keogh ก็คุ้มค่าที่จะอ่าน อ่านได้ง่ายและใช้งานได้อย่างน่าประหลาดใจโดยเน้นที่การใช้ชุดข้อมูลจำนวนมากและให้ข้อมูลที่เพียงพอที่ใครบางคนสามารถสร้างการทดสอบทั้งหมดอีกครั้ง อันล่าสุดน่าสนใจและเป็นสิ่งที่ฉันกำลังทำงานผ่านเมื่อฉันถูกกีดกันด้วยคำถามของฉัน cs.ucr.edu/~eamonn/selected_publications.htm
Jo Douglass

1
@JoDouglass: ไม่เป็นไร! ฉันไม่ได้ตั้งใจที่จะตอบคำถามของคุณโดยตรง (เนื่องจากความรู้ที่ จำกัด ของฉันเกี่ยวกับหัวข้อ) แต่หวังว่ามันจะเป็นประโยชน์ซึ่งดูเหมือนจะเป็นกรณี ขอบคุณสำหรับความคิดเห็นที่ดีและการอ้างอิง - ฉันจะดูเอกสารและพยายามทำความเข้าใจให้ดีขึ้น มีอะไรให้เรียนรู้มากมายเหลือเกิน
Aleksandr Blekh

1
ล้นหลามถูกต้องฉันกำลังเตะตัวเองเพื่อเลือกหัวข้อนี้ซักพัก! ฉันรู้สึกว่าฉันไปถึงที่นั่นและมันน่าสนใจมากที่ได้เรียนรู้ ฉันมีหลายสิ่งหลายอย่างและทำงานเหมือนรุ่นคร่าวๆของสิ่งที่ฉันต้องทำและฉันคิดว่ามันเกี่ยวกับการหาวิธีการประมวลผลข้อมูลของฉันก่อนที่จะเรียกใช้ผ่านแบบจำลองของฉันตอนนี้ ลิงค์แบ่งปันจักรยานนั้นน่าสนใจสำหรับฉันเพราะเป็นครั้งแรกที่ฉันได้พูดคุยเกี่ยวกับค่าเฉลี่ยของอนุกรมเวลาตั้งแต่อ่านกระดาษ Keogh ล่าสุดที่ฉันพูดถึง
Jo Douglass

1
@JoDouglass: เมื่อฉันพูดว่า "ล้นหลาม" ฉันหมายถึงโดเมนข้อมูลวิทยาศาสตร์ทั้งหมด (รวมถึง AI / ML และสถิติโดยเฉพาะ) ฉันยังไม่พบว่ามีทรัพยากรซึ่งของขวัญระดับสูงการอภิปรายของต่างๆวิธีการและ / หรือวิธีการเป็นรูปแบบบูรณาการเป็นที่ครอบคลุมยังเค็ม , กรอบ
Aleksandr Blekh

4

หากคุณต้องการเพียงแค่เหมืองหารูปแบบตามฤดูกาลแล้วมองเข้าไปในอัต หากคุณกำลังมองหาแบบจำลองที่สามารถเรียนรู้รูปแบบตามฤดูกาลและทำการคาดการณ์ได้Holt-Wintersนั้นเป็นการเริ่มต้นที่ดีและARIMAจะเป็นสิ่งที่ดีในการติดตาม ที่นี่[pdf]คือบทช่วยสอนที่พาฉันออกจากพื้นดิน


งานวิชาการ (สำหรับตอนนี้) วิชาการมากกว่าการปฏิบัติอย่างหมดจด ฉันอาจทำการพยากรณ์ในช่วงปลายปีหรือในอนาคต แต่ฉันสนใจที่จะสำรวจข้อมูลที่ผ่านมามากขึ้นในตอนนี้ การจัดกลุ่มเป็นเป้าหมายในตัวของมันเองรวมถึงความคิดบางอย่างที่ฉันต้องการสำรวจผ่านจุดนั้น
Jo Douglass

ขออภัยกด Enter ก่อนกำหนด ฉันได้มองหาความสัมพันธ์อัตโนมัติในระดับหนึ่งแล้ววิ่งไปที่ส่วนย่อยของข้อมูลทั้งหมดของฉันเมื่อก่อน แต่ก็ไม่ชัดเจนสำหรับฉันว่าฉันจะออกไปจากอะไรได้ ข้อมูลค่อนข้างดัง รูปแบบของฤดูกาลบางครั้งก็ชัดเจนในการสร้างภาพ แต่ไม่แน่นอนในการกำหนดเวลาของพวกเขา - ดังนั้นฉันอาจจะมองหารูปแบบที่คล้ายกัน แต่ไม่ได้อยู่ในตารางที่ดีแม้แต่กำหนดการ ฉันได้รับการบอกเล่าว่าความสัมพันธ์อัตโนมัติมีแนวโน้มที่จะเป็นปัญหากับข้อมูลดังกล่าว แต่มีความสุขที่ได้ดูอีกว่ามีคุณค่าหรือไม่ ฉันไม่ต้องการเพียงแค่ค้นหาฤดูกาล แต่เข้าใจว่าเป็นเป้าหมาย
Jo Douglass

ทำงานผ่านบทช่วยสอนนั้นอย่างน้อยสูงสุดและรวมถึง 2.5 มันใช้ R ซึ่งเป็นสิ่งที่ดีสำหรับสภาพแวดล้อมการศึกษาของคุณโดยเฉพาะ มันจะสอนให้คุณทราบโดยอัตโนมัติซึ่งดูเหมือนว่าสิ่งที่คุณกำลังมองหา (ไม่สามารถบอกได้ว่ามันไม่เหมาะสมเพราะคุณไม่รู้ว่าคุณกำลังมองหาอะไรหรือข้อมูลดังเกินไปจริงๆ) หากเสียงดังเป็นปัญหาการปรับให้เรียบแบบเอ็กซ์โปเนนเชียลเป็นวิธีหนึ่งในการช่วยเหลือสิ่งนั้นซึ่งจะถูกสอนเป็นส่วนหนึ่งของแบบจำลองโฮลท์ - วินเทอร์ แม้ว่าทั้งหมดนั้นไม่ได้ให้คำตอบกับคุณ แต่มันจะทำให้ขั้นตอนต่อไปของคุณชัดเจนขึ้น
TheGrimmScientist

ฉันได้อ่านบทช่วยสอน แต่ส่วนใหญ่จะผ่านสิ่งที่ฉันรู้อยู่แล้ว จริง ๆ แล้วฉันทำงานใน Python และฉันค่อนข้างไกลเกินกว่าที่จะเปลี่ยนเป็น R แม้ว่าฉันตั้งใจจะคว้า rpy ในบางครั้งในกรณีที่มีบางสิ่งที่ฉันไม่สามารถหาได้ในห้องสมุด Python ฉันได้เขียนคำถามของฉันใหม่ในกรณีที่ช่วยได้ - เช่นฉันบอกว่าการจัดกลุ่มเป็นเป้าหมายในตัวของมันเองฉันไม่ได้มองหาทิศทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิงฉันกลัวว่าการสอนจะไม่เกิดขึ้น ' ไม่ตอบคำถามของฉัน
Jo Douglass
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.