ฉันมีแบบสำรวจขนาดใหญ่ที่นักเรียนถูกถามระดับการศึกษาของแม่ของพวกเขา บางคนข้ามไปและบางคนตอบผิด ฉันรู้สิ่งนี้เพราะมีตัวอย่างย่อยของผู้ตอบแบบสอบถามเริ่มต้นที่แม่ถูกสัมภาษณ์ในภายหลังและถามคำถามเดียวกัน (ฉันแน่ใจว่ามีข้อผิดพลาดจำนวนเล็กน้อยที่เกี่ยวข้องกับการตอบสนองของมารดาเช่นกัน)
ความท้าทายของฉันคือการตัดสินใจว่าจะใช้ประโยชน์จากแหล่งข้อมูลที่เชื่อถือได้มากขึ้นในวินาทีนี้ได้อย่างไร อย่างน้อยที่สุดฉันสามารถใช้เพื่อระบุข้อมูลที่ขาดหายไปได้อย่างชาญฉลาดกว่าที่ฉันจะทำได้หากฉันสามารถพึ่งพากรณีที่สมบูรณ์เท่านั้น แต่ถ้าเด็ก 3/4 คนที่มีข้อมูลฉันสามารถตรวจสอบข้ามใครตอบว่า "แม่ของฉันไม่เคยเรียนจบชั้นประถมศึกษา" ขัดแย้งกับคำตอบของแม่แล้วดูเหมือนว่าฉันควรใช้การใส่ความคิดเพื่อสร้างชุดข้อมูลหลายชุดเพื่อจับความไม่แน่นอน [เพิ่ม: ฉันบอกว่าให้ทำ 3/4 แต่ตอนนี้ฉันตรวจสอบข้อมูลแล้วฉันอาจบอกคุณว่าใกล้ถึง 40% ไม่ตรงกัน]
โดยส่วนตัวฉันจะใช้การศึกษาของแม่เป็นตัวทำนายในแบบผสม แต่ถ้าใครมีบางสิ่งที่จะพูดเกี่ยวกับสถานการณ์อื่นฉันก็ชอบที่จะเรียนรู้เกี่ยวกับพวกเขาเช่นกัน
ฉันชอบที่จะรับคำแนะนำในวงกว้างหรือเฉพาะ ขอบคุณ!
อัปเดต : ตอนนี้ฉันยังไม่ได้ตอบคำถามเลยแม้ว่าฉันจะชอบคำตอบของ Will และ Conjugate_Prior แต่ฉันก็ยังหวังว่าจะได้รับผลตอบรับทางเทคนิคและเฉพาะเจาะจงมากขึ้น
Scatterplot ด้านล่างจะทำให้คุณเข้าใจว่าตัวแปรสองตัวนี้มีความสัมพันธ์กันอย่างไรใน 10,000 กรณีที่ทั้งสองมีอยู่ พวกเขาซ้อนกันในโรงเรียนมากกว่า 100 แห่ง พวกเขามีความสัมพันธ์กันที่ 0.78 คำตอบของนักเรียน - หมายถึง: 5.12 sd = 2.05 คำตอบของแม่หมายถึง = 5.02, sd = 1.92 คำตอบของนักเรียนหายไปประมาณ 15% ของกรณี