วิธีการกรอกข้อมูลที่ขาดหายไปในอนุกรมเวลา?


16

ฉันมีชุดข้อมูลมลพิษจำนวนมากที่ถูกบันทึกทุก ๆ 10 นาทีตลอดระยะเวลา 2 ปี แต่มีข้อมูลจำนวนมากในช่องว่าง

ข้อมูลดูเหมือนจะเป็นไปตามฤดูกาลและมีความแปรปรวนขนาดใหญ่ในระหว่างวันเมื่อเปรียบเทียบกับคืนที่ค่าไม่เปลี่ยนแปลงมากนักและจุดข้อมูลลดลง

ฉันได้พิจารณาแบบจำลองที่เหมาะกับชุดวันและเวลากลางคืนแยกต่างหาก (เนื่องจากมีความแตกต่างที่ชัดเจนระหว่างพวกเขา) และจากนั้นทำนายค่าของข้อมูลที่หายไปและเติมจุดเหล่านี้

ฉันสงสัยว่านี่เป็นวิธีที่เหมาะสมในการเข้าถึงปัญหานี้หรือไม่และหากมีความจำเป็นที่จะต้องเพิ่มการเปลี่ยนแปลงในท้องถิ่นลงในจุดที่คาดการณ์ไว้

คำตอบ:


20

คำตอบจะขึ้นอยู่กับการออกแบบการศึกษาของคุณ (เช่นอนุกรมเวลาแบบตัดขวางเวลาอนุกรมเวลาหมู่อนุกรมอนุกรมเวลาอนุกรมอนุกรม) Honaker และ King ได้พัฒนาวิธีการที่มีประโยชน์สำหรับอนุกรมเวลาแบบตัดขวาง (อาจมีประโยชน์สำหรับอนุกรมเวลาแบบอนุกรมตามรุ่นของคุณ) ขึ้นอยู่กับสมมติฐานของคุณ) รวมถึงแพคเกจR Amelia IIสำหรับใส่ข้อมูลดังกล่าว ในขณะเดียวกัน Spratt & Co ได้อธิบายวิธีการต่าง ๆ ที่สามารถนำมาใช้ในการออกแบบอนุกรมเวลาบางรุ่น แต่กระจัดกระจายอยู่กับการใช้งานซอฟต์แวร์

ตัดออกแบบอนุกรมเวลา (aka การออกแบบการศึกษาแผง) ซึ่งเป็นหนึ่งในประชากร (s) (จะ) ตัวอย่างซ้ำ ๆ (เช่นทุกปี) โดยใช้โปรโตคอลการศึกษาเดียวกัน (เช่นตัวแปรเดียวกันเครื่องมือ ฯลฯ ) หากกลยุทธ์การสุ่มตัวอย่างเป็นตัวแทนข้อมูลประเภทนี้จะสร้างภาพประจำปี (การวัดหนึ่งครั้งต่อผู้เข้าร่วมหรือหัวเรื่อง) ของการแจกแจงของตัวแปรเหล่านั้นสำหรับแต่ละประชากรในการศึกษา

การออกแบบอนุกรมเวลาแบบโคฮาร์ท (หรือที่รู้จักกันในชื่อการออกแบบการศึกษาแบบซ้ำ, การศึกษาระยะยาวหรือบางครั้งเรียกว่าแบบการศึกษาแบบพาเนล) คือสิ่งที่การวิเคราะห์แต่ละหน่วยถูกสุ่มตัวอย่างหนึ่งครั้งและตามมาเป็นเวลานาน บุคคลอาจถูกสุ่มตัวอย่างในรูปแบบตัวแทนจากประชากรหนึ่งคนขึ้นไป อย่างไรก็ตามตัวอย่างชุดเวลาตัวแทนจะกลายเป็นตัวแทนที่น่าสงสารมากขึ้นของประชากรเป้าหมาย (อย่างน้อยก็ในประชากรมนุษย์) เมื่อเวลาผ่านไปเพราะคนที่เกิดหรืออายุเข้าสู่กลุ่มประชากรเป้าหมายและกำลังจะตายหรืออายุมากขึ้น ด้วยการเข้าเมืองและการย้ายถิ่นฐาน

การออกแบบอนุกรมอนุกรมเวลาอนุกรม (หรือที่รู้จักกันซ้ำหลายครั้งและหลายรุ่นหรือการออกแบบการศึกษาแบบพาเนล) คือสิ่งหนึ่งที่ประชากร (คือ) สุ่มตัวอย่างซ้ำ ๆ (เช่นทุก ๆ ปี) โดยใช้โปรโตคอลการศึกษาเดียวกัน ( เช่นตัวแปรเดียวกันเครื่องมือ ฯลฯ ) ซึ่งวัดแต่ละหน่วยของการวิเคราะห์ภายในประชากร ณ เวลาสองจุดในช่วงระยะเวลา (เช่นระหว่างปี) เพื่อสร้างมาตรการของอัตราการเปลี่ยนแปลง หากกลยุทธ์การสุ่มตัวอย่างเป็นตัวแทนข้อมูลประเภทนี้จะสร้างภาพประจำปีของอัตราการเปลี่ยนแปลงของตัวแปรเหล่านั้นสำหรับแต่ละประชากรในการศึกษา

อ้างอิง
Honaker, J. และ King, G. (2010) สิ่งที่ต้องทำเกี่ยวกับค่าที่ขาดหายไปในเวลาชุดข้อมูลข้ามส่วน วารสารอเมริกันรัฐศาสตร์ 54 (2): 561–581

Spratt, M. , ช่างไม้, J. , Sterne, JAC, Carlin, JB, Heron, J. , Henderson, J. และ Tilling, K. (2010) กลยุทธ์สำหรับการใส่ร้ายหลายในการศึกษาระยะยาว วารสารระบาดวิทยาอเมริกัน , 172 (4): 478–4876


ขอบคุณสำหรับการตอบกลับของคุณ. ฉันแค่สงสัยว่าคุณจะสามารถกำหนดประเภทของเวลาที่แตกต่างกัน (การศึกษาแบบข้ามเวลาเป็นต้น) เนื่องจากฉันค่อนข้างใหม่สำหรับการศึกษาประเภทนี้และไม่เคยเจอคำศัพท์เหล่านี้มาก่อน
Jamesm131

@ Jamesm131 ดูคำตอบที่แก้ไขแล้วของฉัน
Alexis

7

คุณสามารถใช้แพ็คเกจimputeTSใน R ฉันเชื่อว่าข้อมูลที่คุณกำลังทำงานอยู่นั้นเป็นอนุกรมเวลาแบบ uni-variate แพคเกจ imputeTS มีความเชี่ยวชาญในการใส่ชื่อชุดข้อมูล (univariate) อนุกรมเวลา มันมีการใช้งานขั้นตอนวิธีการใส่ร้ายที่แตกต่างกัน นอกเหนือจากอัลกอริธึมการใส่ข้อมูลแพคเกจยังมีการวางแผนและพิมพ์ฟังก์ชันของข้อมูลสถิติที่ขาดหายไป ฉันแนะนำให้คุณดูโมเดลสภาวะอวกาศสำหรับค่าที่หายไปแพ็คเกจนี้ควรช่วยคุณในการวิเคราะห์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.