จะรวมข้อมูลรายเดือนรายวันและรายสัปดาห์ได้อย่างไร


11

Google Trends ส่งคืนข้อมูลรายสัปดาห์ดังนั้นฉันต้องหาวิธีที่จะรวมเข้ากับข้อมูลรายวัน / รายเดือนของฉัน

สิ่งที่ฉันทำไปแล้วคือการแบ่งเซเรียแต่ละเป็นข้อมูลรายวันสำหรับตัวอย่าง:

จาก:

2013-03-03 - 2013-03-09 37

ถึง:

2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37

แต่นี่เป็นการเพิ่มความซับซ้อนให้กับปัญหาของฉัน ฉันพยายามคาดคะเนการค้นหา google จากค่า 6 เดือนล่าสุดหรือ 6 ค่าในข้อมูลรายเดือน ข้อมูลรายวันจะบ่งบอกถึงการทำงานใน 180 ค่าที่ผ่านมา (ฉันมีข้อมูล 10 ปีดังนั้น 120 คะแนนในข้อมูลรายเดือน / 500+ ในข้อมูลรายสัปดาห์ / 3,500+ ในข้อมูลรายวัน)

อีกวิธีหนึ่งก็คือ "ผสาน" ข้อมูลรายวันในข้อมูลรายสัปดาห์ / รายเดือน แต่คำถามบางข้อเกิดขึ้นจากกระบวนการนี้ ข้อมูลบางอย่างสามารถเฉลี่ยได้เนื่องจากผลรวมของข้อมูลแสดงถึงบางอย่าง ตัวอย่างเช่นปริมาณน้ำฝนปริมาณน้ำฝนในแต่ละสัปดาห์จะเป็นผลรวมของจำนวนเงินสำหรับแต่ละวันในการเขียนสัปดาห์

ในกรณีของฉันฉันกำลังจัดการกับราคาอัตราทางการเงินและสิ่งอื่น ๆ สำหรับราคามันเป็นเรื่องธรรมดาในสาขาของฉันที่จะนำปริมาณการแลกเปลี่ยนเข้าบัญชีดังนั้นข้อมูลรายสัปดาห์จะเป็นค่าเฉลี่ยถ่วงน้ำหนัก สำหรับอัตราการเงินมันซับซ้อนกว่านี้เล็กน้อยบางสูตรเกี่ยวข้องกับการสร้างอัตรารายสัปดาห์จากอัตรารายวัน สำหรับสิ่งอื่น ๆ ฉันไม่ทราบคุณสมบัติพื้นฐาน ฉันคิดว่าคุณสมบัติเหล่านี้มีความสำคัญต่อการหลีกเลี่ยงตัวบ่งชี้ที่ไม่มีความหมาย (ตัวอย่างเช่นอัตราเฉลี่ยของคู่หมั้นจะไม่สมเหตุสมผล)

ดังนั้นสามคำถาม:

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายวันไปยังรายสัปดาห์ / รายเดือนได้อย่างไร

ฉันรู้สึกว่าการแบ่งข้อมูลรายสัปดาห์ / รายเดือนเป็นข้อมูลรายวันเหมือนที่ฉันทำนั้นค่อนข้างผิดเพราะฉันแนะนำปริมาณที่ไม่มีเหตุผลในชีวิตจริง ดังนั้นคำถามเดียวกันเกือบ:

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายสัปดาห์ / รายเดือนไปยังข้อมูลรายวันได้อย่างไร

สุดท้าย แต่ไม่ท้ายสุด : เมื่อได้รับอนุกรมเวลาสองครั้งที่มีขั้นตอนเวลาต่างกันจะมีอะไรดีกว่า: ใช้ขั้นต่ำสุดหรือเวลาที่ใหญ่ที่สุด ฉันคิดว่านี่คือการประนีประนอมระหว่างจำนวนข้อมูลและความซับซ้อนของแบบจำลอง แต่ฉันไม่เห็นข้อโต้แย้งที่แข็งแกร่งที่จะเลือกระหว่างตัวเลือกเหล่านั้น

แก้ไข: หากคุณรู้จักเครื่องมือ (ใน R Python แม้แต่ Excel) ที่จะทำมันได้อย่างง่ายดายมันจะได้รับการชื่นชมอย่างมาก


สำหรับไพ ธ อนเครื่องมือมาตรฐานคือนุ่น มันถูกออกแบบมาโดยเฉพาะเพื่อจัดการกับไทม์ข้อมูลทางการเงิน timeseries ของ pandas
seanv507

สนใจที่จะขยายความในสิ่งที่คุณหมายถึงโดย "ทรัพย์สินที่ไม่รู้จัก" หรือไม่?
TheGrimmScientist

คำตอบ:


8

เมื่อได้รับซีรีส์สองครั้งที่มีขั้นตอนเวลาต่างกันจะดีกว่า: การใช้ขั้นต่ำหรือเวลาที่ใหญ่ที่สุด

สำหรับการวิเคราะห์ไทม์ซีรี่ของคุณคุณควรทำทั้งสองอย่าง: ไปที่ระดับสูงสุดที่เป็นไปได้ด้วยชุดข้อมูลรายวันและทำซ้ำการวิเคราะห์ด้วยชุดข้อมูลรายเดือน ด้วยชุดข้อมูลรายเดือนคุณจะมีจุดข้อมูล 120 จุดซึ่งเพียงพอที่จะรับโมเดลไทม์ซีรีได้แม้จะเป็นฤดูกาลในข้อมูลของคุณ

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายวันไปยังรายสัปดาห์ / รายเดือนได้อย่างไร

หากต้องการรับข้อมูลรายสัปดาห์หรือรายเดือนจากข้อมูลรายวันคุณสามารถใช้ฟังก์ชั่นปรับให้เรียบได้ สำหรับข้อมูลทางการเงินคุณสามารถใช้การเคลื่อนย้ายค่าเฉลี่ยหรือการปรับให้เรียบแบบเอกซ์โพเนนเชียล แต่ถ้าสิ่งเหล่านั้นไม่ได้ผลกับข้อมูลของคุณคุณสามารถใช้ฟังก์ชันการทำให้เป็นเส้นโค้งได้ "smooth.spline" ใน R: https://stat.ethz.ch/R -Manual / R-patched / ห้องสมุด / สถิติ / html / smooth.spline.html

โมเดลที่ส่งคืนจะมีเสียงรบกวนน้อยกว่าชุดข้อมูลรายวันดั้งเดิมและคุณสามารถรับค่าสำหรับจุดเวลาที่ต้องการ ในที่สุดจุดข้อมูลเหล่านี้สามารถใช้ในการวิเคราะห์ไทม์ซีของคุณ

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายสัปดาห์ / รายเดือนไปยังข้อมูลรายวันได้อย่างไร

ในการรับข้อมูลรายวันเมื่อคุณมีข้อมูลรายเดือนหรือรายสัปดาห์คุณสามารถใช้การแก้ไข ก่อนอื่นคุณควรหาสมการเพื่ออธิบายข้อมูล ในการทำเช่นนี้คุณควรพล็อตข้อมูล (เช่นราคาเมื่อเวลาผ่านไป) เมื่อคุณรู้จักปัจจัยต่างๆสมการนี้ควรได้รับอิทธิพลจากปัจจัยเหล่านั้น เมื่อไม่ทราบปัจจัยคุณสามารถใช้สมการที่เหมาะสมที่สุด ที่ง่ายที่สุดคือฟังก์ชั่นเชิงเส้นหรือฟังก์ชันเชิงเส้นแบบทวนเข็ม แต่สำหรับข้อมูลทางการเงินสิ่งนี้จะไม่ทำงานได้ดี ในกรณีดังกล่าวคุณควรพิจารณาการประมาณค่าสปินเป็นเส้นตรง ลิงค์นี้ไปในรายละเอียดเพิ่มเติมเกี่ยวกับฟังก์ชั่นการแก้ไขเป็นไปได้: http://people.math.gatech.edu/~meyer/MA6635/chap2.pdf

ใน R มีวิธีการทำการแก้ไขข้อมูลชุดเวลา ที่นี่คุณจะสร้างเวกเตอร์ด้วยค่าพูดรายสัปดาห์และ NAs ในช่องว่างสำหรับค่ารายวันจากนั้นใช้ฟังก์ชัน "interpNA" เพื่อรับค่าที่ถูกแก้ไขสำหรับ NAs อย่างไรก็ตามฟังก์ชั่นนี้ใช้ฟังก์ชั่น "ประมาณ" เพื่อรับค่าการประมาณค่าซึ่งใช้การประมาณเชิงเส้นหรือค่าคงที่ ในการดำเนินการสอดแทรกลูกบาศก์ spline ใน R คุณควรใช้ฟังก์ชัน "splinefun" แทน

สิ่งที่ควรระวังคือรุ่นของ Timeseries มักจะทำการหาค่าเฉลี่ยเพื่อคาดการณ์ค่าในอนาคตไม่ว่าคุณจะดูวิธีการปรับให้เรียบแบบเอกซ์โปเนนเชียลหรือวิธีการหาค่าเฉลี่ยเคลื่อนที่แบบถดถอยอัตโนมัติ ดังนั้นตัวแบบไทม์ซีรีที่จะคาดการณ์ค่ารายวันอาจไม่ใช่ตัวเลือกที่ดีที่สุด แต่ตัวแบบรายสัปดาห์หรือรายเดือนอาจจะดีกว่า


ดูเหมือนว่าจะเป็นคำตอบในทางปฏิบัติ ไม่แน่ใจว่าสิ่งนี้ใช้ได้กับอนุกรมเวลาทางการเงินหรือไม่เนื่องจากการเก็งกำไร
lcrmorin

ฉันคิดว่าคำตอบสำหรับคำถามของคุณยังคงใช้ได้ สำหรับรุ่น Timeseries คุณอาจต้องการดูรุ่น ARCH (AutoRegressive Conditional Heteroskedasticity)
gchaks

เมื่อคุณสอดแทรกการใช้เช่นคิวบ์ spline ในอนุกรมเวลาทางการเงินคุณจะไม่แนะนำการมองไปข้างหน้าหรือไม่? ฉันคิดว่าสิ่งนี้อาจมีความสำคัญอย่างยิ่งหากใช้สำหรับโมเดลการเรียนรู้ด้วยเครื่อง?
tsando

5

ฉันไม่ได้เป็นผู้เชี่ยวชาญในพื้นที่นี้ แต่ผมเชื่อว่าคำถามของคุณที่เกี่ยวข้องกับการรวมชุดเวลาและ disaggregation หากเป็นกรณีนี้นี่คือแหล่งข้อมูลที่เกี่ยวข้องหวังว่าอาจเป็นประโยชน์ในการแก้ปัญหาของคุณ (ห้ารายการแรกเป็นหลัก แต่ตัวแทนและสองรายการสุดท้ายเป็นส่วนเสริม):


2

นี่จะไม่ใช่คำตอบที่น่าพอใจมาก แต่นี่คือสิ่งที่ฉันควรทำ ...

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายวันไปยังรายสัปดาห์ / รายเดือนได้อย่างไร

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายสัปดาห์ / รายเดือนไปยังข้อมูลรายวันได้อย่างไร

คำตอบเดียวกันสำหรับทั้งคู่: คุณไม่สามารถทำสิ่งนี้กับคุณสมบัติที่ไม่รู้จักและสำหรับคุณสมบัติที่รู้จักจะขึ้นอยู่กับวิธีคำนวณค่า

ตามที่คุณได้กล่าวถึง:

(ค่าเฉลี่ยของอัตราการเป็นคู่หมั้นจะไม่สมเหตุสมผล)

ไม่มีการแปลงเดี่ยวที่เหมาะสมในทุกกรณีไม่ว่าจะเป็นคุณสมบัติหรือค่าที่ทราบหรือไม่ทราบ แม้จะมีคุณสมบัติที่เป็นที่รู้จักคุณอาจต้องการการแปลงที่ไม่ซ้ำกันสำหรับแต่ละประเภท: ค่าเฉลี่ย, มัธยฐาน, โหมด, นาที, สูงสุด, บูลีน ฯลฯ

เมื่อได้รับซีรีส์สองครั้งที่มีขั้นตอนเวลาต่างกันจะดีกว่า: การใช้ขั้นต่ำหรือเวลาที่ใหญ่ที่สุด

เมื่อใดก็ตามที่เป็นไปได้พยายามรักษาความละเอียดอย่างเต็มขั้นของขั้นตอนที่เล็กที่สุดเท่าที่จะทำได้ สมมติว่าคุณรู้วิธีเปลี่ยนค่าคุณสามารถทำตามขั้นตอนต่างๆได้ (เช่นวันต่อเดือนเดือนต่อปี) ... แต่คุณไม่จำเป็นต้องสร้างขั้นตอนเล็ก ๆ จากค่าที่ใหญ่กว่าหลังจากการแปลงที่สูญเสียไป .


2

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายวันไปยังรายสัปดาห์ / รายเดือนได้อย่างไร

การรวมตัว

ตัวอย่างเช่นคุณมีจำนวนครั้งที่ผู้คนค้นหา 'วิดเจ็ต' ทุกวัน เพิ่มผลรวมรายวันเป็นเดือนเพื่อรับผลรวมรายเดือน ฉันต้องการดูข้อมูลเฉพาะเจาะจงมากขึ้นเกี่ยวกับข้อมูลจริงที่รวบรวมได้ในแต่ละรายละเอียดเพื่อให้คุณมีเวอร์ชันที่สมบูรณ์ยิ่งขึ้น

สำหรับคุณสมบัติที่เป็นที่รู้จักและไม่รู้จักฉันจะดำเนินการต่อจากข้อมูลรายสัปดาห์ / รายเดือนไปยังข้อมูลรายวันได้อย่างไร

คุณทำไม่ได้

ในฟิสิกส์เป็นความคิดที่เปรียบเป็นความถี่ Nyquist แนวคิดทั่วไปคือคุณไม่สามารถเพิ่มข้อมูลได้มากกว่าสิ่งที่คุณมีอยู่แล้วในข้อมูลของคุณโดยไม่ต้องนำข้อมูลเพิ่มเติม เมื่อให้เฉพาะวันที่มีคนเรียกใช้แบบสอบถามคุณจะบอกได้อย่างไรว่าเวลาใดในวันที่มีการเรียกใช้แบบสอบถาม คุณอาจสามารถทำการอนุมานได้ แต่วิธีเดียวที่จะตอบคำถามคือการนำข้อมูลเข้าสู่ระบบโดยตรงหรือโดยอ้อม มีสิ่งที่คุณสามารถทำได้เพื่อคาดเดาข้อมูลสถานะประจำวันของตัวแปรรายเดือน (ดังที่ gchaks พูดถึงการแก้ไข) แต่ข้อมูลของคุณยังคงเป็นข้อมูลรายเดือนที่ยืดให้ดูทุกวัน

เมื่อได้รับอนุกรมสองครั้งที่มีขั้นตอนเวลาต่างกันจะดีกว่า: การใช้ขั้นต่ำสุดหรือขั้นตอนที่ใหญ่ที่สุด

ทั้งหมดนั้นขึ้นอยู่กับสิ่งที่คุณพยายามตอบ

เม็ดเล็ก ๆ จะมีความไวต่อเสียงรบกวนและความผิดปกติอื่น ๆ เมล็ดเล็ก ๆ ของเบียร์จะสามารถตอบคำถามได้อย่างมั่นใจมากขึ้น แต่ก็มีประโยชน์บางส่วน ตัวอย่างเช่นหากคุณกำลังพยายามดูว่าเมื่อใดที่ผู้คนเริ่มค้นหาสถานที่เพื่อวางแผนวันหยุดสุดสัปดาห์เพื่อทราบว่าจะเปิดตัวแคมเปญการตลาดสำหรับไนท์คลับใหม่คุณจะต้องดูข้อมูลรายวันถ้าไม่เล็กลง หากคุณกำลังดูแนวโน้มทั่วไปของไนท์คลับเพื่อหาว่าคุณต้องการลงทุนในรายเดือนอาจจะดีกว่า


2

ความสามารถในการรวบรวมข้อมูลตามส่วนของวันที่เป็นชิ้นส่วนของเค้กโดยใช้ซอฟต์แวร์ Tableau คุณเพียงแค่เสียบข้อมูลของคุณลงในเครื่องมือจากนั้นคุณสามารถลากและวางทั้งตัวชี้วัดและมิติข้อมูลลงในพื้นที่เนื้อหาของรายงาน Tableau จะทำการวิชวลไลเซชันการสร้างภาพรวมและ / หรือตารางข้อมูลรายละเอียดทันที คุณสามารถจัดกลุ่ม / ผลรวมตามปีไตรมาสเดือนสัปดาห์วันชั่วโมง ฯลฯ (มาตรฐานสร้างขึ้นจากฟังก์ชันการทำงานของกล่องที่เสนอโดยเครื่องมือ)

นอกจากนี้หากคุณต้องการรวมข้อมูลเพิ่มเติมในภายหลัง (ซึ่งฉันถือว่าเป็นสิ่งที่คุณหมายถึง 'คุณสมบัติที่ไม่รู้จัก') ​​คุณสามารถนำเข้าชุดข้อมูลอื่นและผนวกเข้ากับชุดแรกได้อย่างง่ายดายตราบเท่าที่ยังมีวันที่

ฉันขอแนะนำให้ตรวจสอบรุ่นฟรีซึ่งฉันเชื่อว่าเรียกว่า Tableau Public

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.