พื้นหลัง
ฉันกำลังทำงานเกี่ยวกับชุดข้อมูลเวลาของการอ่านมาตรวัดพลังงาน ความยาวของซีรีย์แตกต่างกันไปตามเมตร - สำหรับบางคนที่ฉันมีหลายปีอื่น ๆ เพียงไม่กี่เดือน ฯลฯ หลายคนแสดงฤดูกาลที่สำคัญและมักจะหลายชั้น - ภายในวันสัปดาห์หรือปี
หนึ่งในสิ่งที่ฉันได้ทำคือการจัดกลุ่มของอนุกรมเวลาเหล่านี้ งานของฉันเป็นงานวิชาการในขณะนี้และในขณะที่ฉันทำการวิเคราะห์ข้อมูลอื่น ๆ เช่นกันฉันมีเป้าหมายที่เฉพาะเจาะจงในการทำคลัสเตอร์บางอย่าง
ฉันเริ่มงานแรกโดยที่ฉันคำนวณคุณสมบัติต่าง ๆ (เปอร์เซ็นต์ที่ใช้ในวันหยุดสุดสัปดาห์กับวันทำงานเปอร์เซ็นต์ที่ใช้ในช่วงเวลาต่าง ๆ เป็นต้น) จากนั้นฉันก็ไปดูที่การใช้ Dynamic Time Warping (DTW) เพื่อให้ได้ระยะห่างระหว่างซีรีย์ที่แตกต่างกันและการจัดกลุ่มตามค่าที่แตกต่างกันและฉันก็พบเอกสารหลายฉบับที่เกี่ยวข้องกับเรื่องนี้
คำถาม
การเปลี่ยนแปลงตามฤดูกาลในซีรีส์ที่ระบุจะทำให้การจัดกลุ่มของฉันไม่ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นฉันจะจัดการกับมันได้อย่างไร
ความกังวลของฉันคือระยะทางที่ได้รับจาก DTW อาจทำให้เข้าใจผิดในกรณีที่รูปแบบในอนุกรมเวลาเปลี่ยนไป สิ่งนี้อาจนำไปสู่การทำคลัสเตอร์ที่ไม่ถูกต้อง
ในกรณีที่ข้างต้นไม่ชัดเจนให้พิจารณาตัวอย่างเหล่านี้:
ตัวอย่างที่ 1
มาตรวัดมีการอ่านค่าต่ำตั้งแต่เที่ยงคืนจนถึง 8 โมงเช้าการอ่านเพิ่มขึ้นอย่างรวดเร็วในชั่วโมงถัดไปและอยู่สูงจาก 9.00 น. ถึง 17.00 น. จากนั้นลดลงอย่างรวดเร็วในชั่วโมงถัดไปจากนั้นพักต่ำจาก 18.00 น. จนถึงเที่ยงคืน มิเตอร์ยังคงรูปแบบนี้อย่างต่อเนื่องทุกวันเป็นเวลาหลายเดือน แต่จากนั้นเปลี่ยนเป็นรูปแบบที่การอ่านอยู่ในระดับสม่ำเสมอตลอดทั้งวัน
ตัวอย่างที่ 2
เมตรจะแสดงปริมาณพลังงานที่ใช้ไปในแต่ละเดือนโดยประมาณ หลังจากผ่านไปหลายปีมันจะเปลี่ยนเป็นรูปแบบที่การใช้พลังงานจะสูงขึ้นในช่วงฤดูร้อนก่อนที่จะกลับสู่ปริมาณปกติ
ทิศทางที่เป็นไปได้
- ฉันสงสัยว่าฉันสามารถเปรียบเทียบอนุกรมเวลาทั้งหมดต่อไปหรือไม่ แต่แยกพวกเขาและพิจารณาพวกเขาเป็นชุดแยกต่างหากหากรูปแบบมีการเปลี่ยนแปลงอย่างมาก อย่างไรก็ตามในการทำเช่นนี้ฉันจะต้องสามารถตรวจจับการเปลี่ยนแปลงดังกล่าวได้ นอกจากนี้ฉันไม่ทราบว่านี่เป็นวิธีที่เหมาะสมหรือทำงานกับข้อมูล
- ฉันยังพิจารณาแยกข้อมูลและพิจารณาว่าเป็นอนุกรมเวลาแยกกันมาก ตัวอย่างเช่นฉันสามารถพิจารณาการรวมกันทุกวัน / เมตรเป็นชุดแยก อย่างไรก็ตามฉันต้องทำเช่นเดียวกันหากฉันต้องการพิจารณารูปแบบรายสัปดาห์ / เดือน / รายปี ฉันคิดว่ามันจะใช้งานได้ แต่มันอาจจะค่อนข้างลำบากและฉันก็ไม่ชอบที่จะเดินไปตามทางนี้หากมีวิธีที่ดีกว่าที่ฉันพลาดไป
หมายเหตุเพิ่มเติม
นี่คือสิ่งที่เกิดขึ้นในความคิดเห็นหรือสิ่งที่ฉันคิดว่าเป็นเพราะความคิดเห็นซึ่งอาจเกี่ยวข้อง ฉันกำลังวางมันไว้ที่นี่เพื่อที่ผู้คนไม่ต้องอ่านทุกอย่างเพื่อรับข้อมูลที่เกี่ยวข้อง
- ฉันทำงานใน Python แต่มี rpy สำหรับสถานที่เหล่านั้นที่ R เหมาะสมกว่า ฉันไม่จำเป็นต้องมองหาคำตอบของ Python - หากใครบางคนมีคำตอบที่ใช้งานได้จริงฉันควรทำอย่างไรหากฉันมีความสุข
- ฉันมีการทำงานของรหัส "ร่างคร่าว ๆ " - ฉันทำบางอย่างเกี่ยวกับ DTW ฉันได้ทำการจัดกลุ่มแบบต่าง ๆ สองสามแบบฉันคิดว่าฉันเข้าใจทิศทางที่ฉันกำลังทำอยู่ m การค้นหาจริงๆเกี่ยวข้องกับวิธีที่ฉันประมวลผลข้อมูลของฉันก่อนค้นหาระยะทาง, เรียกใช้การจัดกลุ่มและอื่น ๆ ด้วยเหตุนี้ฉันคิดว่าคำตอบจะเหมือนกันไม่ว่าจะคำนวณระยะทางระหว่างอนุกรมผ่านทาง DTW หรือ Euclidean Distance (ED) ที่เรียบง่ายขึ้น
- ฉันได้พบเอกสารเหล่านี้โดยเฉพาะอย่างยิ่งให้ข้อมูลเกี่ยวกับอนุกรมเวลาและ DTW และพวกเขาอาจเป็นประโยชน์หากจำเป็นต้องมีพื้นหลังบางส่วนในพื้นที่หัวข้อ: http://www.cs.ucr.edu/~eamonn/selected_publications.htm