เทคนิคการจัดกลุ่มที่เหมาะสมสำหรับข้อมูลชั่วคราวหรือไม่


13

ฉันมีข้อมูลชั่วคราวของความถี่กิจกรรม ฉันต้องการระบุกลุ่มในข้อมูลที่ระบุช่วงเวลาที่แตกต่างกับระดับกิจกรรมที่คล้ายกัน เป็นการดีที่ฉันต้องการระบุกลุ่มโดยไม่ต้องระบุจำนวนกลุ่มก่อน

เทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร หากคำถามของฉันมีข้อมูลไม่เพียงพอที่จะตอบชิ้นส่วนของข้อมูลที่ฉันต้องจัดหาเพื่อกำหนดเทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร

ด้านล่างนี้เป็นภาพประกอบของชนิดข้อมูล / การจัดกลุ่มที่ฉันจินตนาการ: การจัดกลุ่มข้ามเวลา


เนื้อเรื่องดูนุ่มนวล (สอดแทรก) สำหรับฉัน นั่นอาจทำให้เข้าใจผิด และ "ยาว" ฉันเกี่ยวข้องกับ geodata แต่เห็นได้ชัดว่าคุณกำลังดูอนุกรมเวลา?
เลิกเล่น - Anony-Mousse

1
อย่าให้ความสนใจมากเกินไปกับเนื้อเรื่องมันเป็นเพียงตัวอย่าง สิ่งที่ฉันต้องการบรรลุคือการระบุตอนที่แตกต่างของเวลาตามตัวแปรที่แตกต่างกันไปตามเวลา ในระยะยาวในใจของฉันก็เหมือนกับข้อมูลทางโลกให้ดูเช่นen.wikipedia.org/wiki/Longitudinal_study
histelheim

เพราะในการจัดกลุ่มคุณจะเห็นคำนี้ส่วนใหญ่เหมือนกับในen.wikipedia.org/wiki/Longitude - จากคำถามของคุณมันไม่ชัดเจนว่าคุณต้องการจัดกลุ่มอะไร คุณสามารถจัดกลุ่มเช่นช่วงเวลาที่มีพฤติกรรมคล้ายกันใน "วิชา" หรือวิชาที่แสดงความคืบหน้าเหมือนกันในช่วงเวลา
จบแล้ว - Anony-Mousse

1
ฉันเปลี่ยน 'ตามยาว' เป็น 'ชั่วคราว' เพื่อหลีกเลี่ยงความสับสน การใช้คำพูดของคุณผมคิดว่าผมต้องการที่จะจัดกลุ่มช่วงเวลา อย่างไรก็ตามสิ่งสำคัญสำหรับฉันคือกระจุกนั้นมีความแตกต่างและต่อเนื่องตามกาลเวลา
histelheim

การค้นหาด้วยคำหลัก "การแบ่งส่วนอนุกรมเวลา" หรือ "การสลับรุ่นของระบอบการปกครอง" อาจช่วยคุณได้
Yves

คำตอบ:


6

จากการวิจัยของฉันเองดูเหมือนว่าแบบจำลองซ่อนมาร์คอฟแบบเกาส์อาจเหมาะสม: http://scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py

ดูเหมือนว่าจะพบกับกิจกรรมที่แตกต่างกัน

แบบจำลองมาร์คอฟแบบเกาส์ที่ซ่อนอยู่


คุณไม่ต้องรู้ว่ามีรัฐซ่อนเร้นอยู่กี่แห่งก่อนเวลา? มีวิธีการแก้ไขไหม?
JCWong

@JCWong ฉันคิดว่าคุณสามารถใช้ตัวแปร Bayesian ที่ไม่ใช่พารามิเตอร์ (รูปแบบมาร์คอฟที่ซ่อนอยู่ไม่สิ้นสุด) เพื่อหลีกเลี่ยงปัญหานั้น
jtobin

หลังจากนั้นไม่นาน: HMM ดูเหมือนจะไม่จัดกลุ่ม / เหตุการณ์กลุ่มชั่วคราว (สิ่งที่ดูจากรูป) แต่สิ่งที่ถูกถามคือทำอย่างไรจึงจะได้กลุ่มชั่วคราว ฉันแค่อยากรู้อยากเห็นเนื่องจากฉันกำลังทำงานกับสิ่งที่จัดกลุ่มชั่วคราว
RussellB

3

ปัญหาของคุณคล้ายกับคำถามที่ฉันกำลังดูและคำถามนี้ซึ่งคล้ายกัน แต่ไม่ค่อยมีคำอธิบายที่ดี

ลิงก์คำตอบของพวกเขาไปยังบทสรุปที่ดีเกี่ยวกับการตรวจจับการเปลี่ยนแปลง สำหรับวิธีแก้ไขที่เป็นไปได้พบการค้นหา google อย่างรวดเร็วพบแพ็คเกจการวิเคราะห์จุดเปลี่ยนในรหัส Google R ยังมีเครื่องมือบางอย่างสำหรับทำสิ่งนี้ bcpแพคเกจสวยที่มีประสิทธิภาพและใช้งานง่ายมาก ถ้าคุณต้องการที่จะทำมันทันทีที่มีข้อมูลเข้ามากระดาษ "การตรวจจับการเปลี่ยนแปลงตัวชี้วัดออนไลน์และการประมาณค่าพารามิเตอร์ด้วยแอปพลิเคชันไปยังข้อมูลจีโนม" อธิบายถึงวิธีการที่ซับซ้อนมาก ๆ นอกจากนี้ยังมีstrucchangeแพ็คเกจ แต่มันก็ใช้ได้ดีสำหรับฉัน


1

เวฟเล็ตสามารถช่วยคุณระบุช่วงเวลาที่มีคุณสมบัติต่างกัน อย่างไรก็ตามฉันไม่แน่ใจว่ามีวิธีการใดที่จะแบ่งเวลาให้คุณเป็นช่วง ๆ และดูเหมือนว่ามีหลายทฤษฎีที่ต้องลุยผ่านซึ่งฉันเป็นเพียงจุดเริ่มต้นเท่านั้น ฉันหวังว่าจะอ่านคำแนะนำอื่น ๆ ..

บทหนังสือเบื้องต้นเกี่ยวกับเวฟเล็ตฟรี

แพ็คเกจ R สำหรับการทดสอบที่สำคัญกับเวฟเล็ต


1

คุณเคยเห็นหน้านี้: หน้าการจำแนก / การจัดกลุ่มอนุกรมเวลา UCRหรือไม่

ที่นั่นคุณสามารถค้นหาได้ทั้ง: ชุดข้อมูลที่จะฝึกปฏิบัติและผลลัพธ์ที่เผยแพร่ - เพื่อเปรียบเทียบประสิทธิภาพของการนำไปใช้งานของคุณเอง (มีลิงก์เกี่ยวกับประสิทธิภาพที่รู้จักของเทคนิคการเรียนรู้ของเครื่องที่รู้จักกันดีด้วย) นอกจากนี้หน้านี้กำลังอ้างถึงเอกสารจำนวนมากซึ่งคุณสามารถดำเนินการต่อไปได้ด้วยการวิจัยเพื่อหาวิธีที่ดีที่สุดที่เหมาะสมกับปัญหาข้อมูลหรือความต้องการของคุณ

นอกจากนี้ยังมีวิธีการอีกวิธีหนึ่งในการทำเช่นนั้น (อาจ) โดยการใช้งานของ sequitur http: // sequitur.info หากคุณสามารถทำให้ปกติ / ประมาณข้อมูลของคุณได้ดีจะทำให้ไวยากรณ์ของ "ช่วงเวลาที่แตกต่างกับระดับกิจกรรมที่คล้ายคลึงกัน" ดูเอกสารนี้และค้นหาอีกอันทำให้ฉันไม่สามารถเพิ่มลิงค์เพิ่มเติม ...


3
คุณสามารถให้ข้อมูลสรุปโดยย่อเกี่ยวกับทรัพยากรที่มีอยู่ในหน้านี้หรือไม่?
chl

แน่นอนฉันทำได้. เริ่มต้นจากการมีฉันรหัสของตัวเองลักษณนาม
seninp

1

ฉันคิดว่าคุณอาจใช้ Dynamic Time Wrapping เพื่อค้นหาความคล้ายคลึงกันระหว่างอนุกรมเวลาต่างๆ ในการดำเนินการดังกล่าวคุณอาจจำเป็นต้องลดทอนเวฟเล็ตลงในคอลเล็กชันเช่นอาร์เรย์ แต่ความละเอียดจะเป็นปัญหาและหากคุณมีอนุกรมเวลาจำนวนมากค่าใช้จ่ายในการคำนวณจะค่อนข้างใหญ่ในการคำนวณระยะทาง DTM สำหรับทุกคู่ ดังนั้นคุณอาจต้องเลือกล่วงหน้าเพื่อทำงานเป็นป้ายกำกับ

ตรวจสอบนี้ออก ฉันยังทำงานบางอย่างเช่นคุณและหน้านี้ช่วยฉันบ้าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.