ฉันกำลังพยายามที่จะจัดการกับปัญหาที่เกี่ยวข้องกับการใส่ข้อมูลที่หายไปจากการศึกษาข้อมูลแบบพาเนล (ไม่แน่ใจว่าฉันกำลังใช้ 'การศึกษาข้อมูลแบบพาเนล' อย่างถูกต้อง - อย่างที่ฉันได้เรียนรู้ในวันนี้) ถึงปี 2009 ตลอดทั้งเดือนชายและหญิงสำหรับ 8 อำเภอที่แตกต่างกันและสำหรับกลุ่มอายุ 4 ขวบ
ชื่อไฟล์มีลักษณะดังนี้:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
สำหรับ 10 เดือนที่แพร่กระจายไปทั่วปี 2550 และ 2551 จำนวนผู้เสียชีวิตทั้งหมดจากทุกอำเภอไม่ได้ถูกบันทึกไว้ ฉันพยายามประเมินค่าที่หายไปเหล่านี้ผ่านวิธีการใส่ข้อมูลหลายวิธี ไม่ว่าจะใช้โมเดลเชิงเส้นทั่วไปหรือรุ่น SARIMA
ปัญหาที่ใหญ่ที่สุดของฉันคือการใช้ซอฟต์แวร์และการเข้ารหัส ฉันถามคำถามเกี่ยวกับ Stackoverflow ที่ฉันต้องการแยกข้อมูลออกเป็นกลุ่มเล็ก ๆ เช่นนี้
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
กำลังจะ
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
แต่มีคนแนะนำว่าฉันควรนำคำถามของฉันมาที่นี่ - อาจจะถามหาทิศทาง? ขณะนี้ฉันไม่สามารถป้อนข้อมูลนี้เป็นชุดเวลา / แผงการศึกษาที่เหมาะสมในอาร์ในที่สุดเป้าหมายของฉันคือการใช้ข้อมูลนี้และamelia2
แพคเกจที่มีฟังก์ชั่นที่จะระบุว่าขาดหายไปTotalDeaths
ในเดือน 2550 และ 2551 หายไป
ความช่วยเหลือใด ๆ วิธีการทำเช่นนี้และข้อเสนอแนะเกี่ยวกับวิธีการแก้ไขปัญหานี้จะได้รับการชื่นชมอย่างสุดซึ้ง
ถ้านี้จะช่วยให้ฉันพยายามที่จะปฏิบัติตามวิธีการที่คล้ายกับสิ่งที่คลินต์โรเบิร์ตได้ในปริญญาเอกวิทยานิพนธ์
แก้ไข:
หลังจากสร้างตัวแปร 'time' และ 'group' ตามที่แนะนำโดย @Matt:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
ตามที่คุณสังเกตเห็นว่ามีรายละเอียดเพิ่มเติมที่เป็น 'ธรรมชาติ' และ 'ไม่เป็นธรรมชาติ'
Amelia
นาน แต่ก็ยอมแพ้ (ก่อนหน้านี้) ก่อนหน้านี้ฉันเคยเห็นบทความสั้น ๆ (แต่แพ้ไปอย่างใดอย่างหนึ่ง!) เพิ่งได้ดูอย่างรวดเร็วและจะผ่านมันไปให้ได้ ปัญหาหนึ่งที่ฉันมีตอนนี้คือฉันไม่แน่ใจเกี่ยวกับวิธีการสร้างgroup
และtime
ตัวแปร (ฉันพยายามสร้างพวกเขาสำหรับการวิเคราะห์อนุกรมเวลา / การคาดการณ์ แต่ได้วนรอบมัน) ฉันแน่ใจว่ามันอยู่ในจุดเริ่มต้น - ดังนั้นฉันจะกลับไปหาคุณถ้าฉันกำลังดิ้นรน ขอขอบคุณอีกครั้ง :)