คำถามติดแท็ก data-imputation

หมายถึงคลาสทั่วไปของวิธีการที่ใช้ในการ "กรอกข้อมูล" ข้อมูลที่ขาดหายไป วิธีการที่ใช้โดยทั่วไปจะเกี่ยวข้องกับการแก้ไข (http://en.wikipedia.org/wiki/Interpolation) และต้องมีการตั้งสมมติฐานเกี่ยวกับสาเหตุที่ข้อมูลหายไป (เช่น "หายไปโดยการสุ่ม")

1
ทำไมการใส่ข้อมูลหลาย ๆ ครั้งจึงมีคุณภาพต่ำ
พิจารณารหัส R ต่อไปนี้: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 c = 2*b = 4*aที่คุณสามารถดูฉันได้ออกแบบข้อมูลเพื่อให้ประมาณ a=1, b=2, c=12ดังนั้นเราคาดว่าจะได้ค่าที่ขาดหายไปจะเป็นรอบ ดังนั้นฉันทำการวิเคราะห์: > imp <- mi(data) …

2
การใส่ข้อผิดพลาดอย่างเป็นระบบในการตอบแบบสำรวจ
ฉันมีแบบสำรวจขนาดใหญ่ที่นักเรียนถูกถามระดับการศึกษาของแม่ของพวกเขา บางคนข้ามไปและบางคนตอบผิด ฉันรู้สิ่งนี้เพราะมีตัวอย่างย่อยของผู้ตอบแบบสอบถามเริ่มต้นที่แม่ถูกสัมภาษณ์ในภายหลังและถามคำถามเดียวกัน (ฉันแน่ใจว่ามีข้อผิดพลาดจำนวนเล็กน้อยที่เกี่ยวข้องกับการตอบสนองของมารดาเช่นกัน) ความท้าทายของฉันคือการตัดสินใจว่าจะใช้ประโยชน์จากแหล่งข้อมูลที่เชื่อถือได้มากขึ้นในวินาทีนี้ได้อย่างไร อย่างน้อยที่สุดฉันสามารถใช้เพื่อระบุข้อมูลที่ขาดหายไปได้อย่างชาญฉลาดกว่าที่ฉันจะทำได้หากฉันสามารถพึ่งพากรณีที่สมบูรณ์เท่านั้น แต่ถ้าเด็ก 3/4 คนที่มีข้อมูลฉันสามารถตรวจสอบข้ามใครตอบว่า "แม่ของฉันไม่เคยเรียนจบชั้นประถมศึกษา" ขัดแย้งกับคำตอบของแม่แล้วดูเหมือนว่าฉันควรใช้การใส่ความคิดเพื่อสร้างชุดข้อมูลหลายชุดเพื่อจับความไม่แน่นอน [เพิ่ม: ฉันบอกว่าให้ทำ 3/4 แต่ตอนนี้ฉันตรวจสอบข้อมูลแล้วฉันอาจบอกคุณว่าใกล้ถึง 40% ไม่ตรงกัน] โดยส่วนตัวฉันจะใช้การศึกษาของแม่เป็นตัวทำนายในแบบผสม แต่ถ้าใครมีบางสิ่งที่จะพูดเกี่ยวกับสถานการณ์อื่นฉันก็ชอบที่จะเรียนรู้เกี่ยวกับพวกเขาเช่นกัน ฉันชอบที่จะรับคำแนะนำในวงกว้างหรือเฉพาะ ขอบคุณ! อัปเดต : ตอนนี้ฉันยังไม่ได้ตอบคำถามเลยแม้ว่าฉันจะชอบคำตอบของ Will และ Conjugate_Prior แต่ฉันก็ยังหวังว่าจะได้รับผลตอบรับทางเทคนิคและเฉพาะเจาะจงมากขึ้น Scatterplot ด้านล่างจะทำให้คุณเข้าใจว่าตัวแปรสองตัวนี้มีความสัมพันธ์กันอย่างไรใน 10,000 กรณีที่ทั้งสองมีอยู่ พวกเขาซ้อนกันในโรงเรียนมากกว่า 100 แห่ง พวกเขามีความสัมพันธ์กันที่ 0.78 คำตอบของนักเรียน - หมายถึง: 5.12 sd = 2.05 คำตอบของแม่หมายถึง = 5.02, sd = 1.92 …

1
การใส่ข้อมูลหลายครั้งสำหรับข้อมูลการนับที่ขาดหายไปในอนุกรมเวลาจากการศึกษาแบบพาเนล
ฉันกำลังพยายามที่จะจัดการกับปัญหาที่เกี่ยวข้องกับการใส่ข้อมูลที่หายไปจากการศึกษาข้อมูลแบบพาเนล (ไม่แน่ใจว่าฉันกำลังใช้ 'การศึกษาข้อมูลแบบพาเนล' อย่างถูกต้อง - อย่างที่ฉันได้เรียนรู้ในวันนี้) ถึงปี 2009 ตลอดทั้งเดือนชายและหญิงสำหรับ 8 อำเภอที่แตกต่างกันและสำหรับกลุ่มอายุ 4 ขวบ ชื่อไฟล์มีลักษณะดังนี้: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.