การใส่ข้อผิดพลาดอย่างเป็นระบบในการตอบแบบสำรวจ

ฉันมีแบบสำรวจขนาดใหญ่ที่นักเรียนถูกถามระดับการศึกษาของแม่ของพวกเขา บางคนข้ามไปและบางคนตอบผิด ฉันรู้สิ่งนี้เพราะมีตัวอย่างย่อยของผู้ตอบแบบสอบถามเริ่มต้นที่แม่ถูกสัมภาษณ์ในภายหลังและถามคำถามเดียวกัน (ฉันแน่ใจว่ามีข้อผิดพลาดจำนวนเล็กน้อยที่เกี่ยวข้องกับการตอบสนองของมารดาเช่นกัน)

ความท้าทายของฉันคือการตัดสินใจว่าจะใช้ประโยชน์จากแหล่งข้อมูลที่เชื่อถือได้มากขึ้นในวินาทีนี้ได้อย่างไร อย่างน้อยที่สุดฉันสามารถใช้เพื่อระบุข้อมูลที่ขาดหายไปได้อย่างชาญฉลาดกว่าที่ฉันจะทำได้หากฉันสามารถพึ่งพากรณีที่สมบูรณ์เท่านั้น แต่ถ้าเด็ก 3/4 คนที่มีข้อมูลฉันสามารถตรวจสอบข้ามใครตอบว่า "แม่ของฉันไม่เคยเรียนจบชั้นประถมศึกษา" ขัดแย้งกับคำตอบของแม่แล้วดูเหมือนว่าฉันควรใช้การใส่ความคิดเพื่อสร้างชุดข้อมูลหลายชุดเพื่อจับความไม่แน่นอน [เพิ่ม: ฉันบอกว่าให้ทำ 3/4 แต่ตอนนี้ฉันตรวจสอบข้อมูลแล้วฉันอาจบอกคุณว่าใกล้ถึง 40% ไม่ตรงกัน]

โดยส่วนตัวฉันจะใช้การศึกษาของแม่เป็นตัวทำนายในแบบผสม แต่ถ้าใครมีบางสิ่งที่จะพูดเกี่ยวกับสถานการณ์อื่นฉันก็ชอบที่จะเรียนรู้เกี่ยวกับพวกเขาเช่นกัน

ฉันชอบที่จะรับคำแนะนำในวงกว้างหรือเฉพาะ ขอบคุณ!

อัปเดต : ตอนนี้ฉันยังไม่ได้ตอบคำถามเลยแม้ว่าฉันจะชอบคำตอบของ Will และ Conjugate_Prior แต่ฉันก็ยังหวังว่าจะได้รับผลตอบรับทางเทคนิคและเฉพาะเจาะจงมากขึ้น

Scatterplot ด้านล่างจะทำให้คุณเข้าใจว่าตัวแปรสองตัวนี้มีความสัมพันธ์กันอย่างไรใน 10,000 กรณีที่ทั้งสองมีอยู่ พวกเขาซ้อนกันในโรงเรียนมากกว่า 100 แห่ง พวกเขามีความสัมพันธ์กันที่ 0.78 คำตอบของนักเรียน - หมายถึง: 5.12 sd = 2.05 คำตอบของแม่หมายถึง = 5.02, sd = 1.92 คำตอบของนักเรียนหายไปประมาณ 15% ของกรณี

ป้อนคำอธิบายรูปภาพที่นี่

data-imputation

— Michael Bishop
แหล่งที่มา

ตัวเลือกการตอบคำถามแรกคือคำถามที่ว่า "แม่ของฉันไม่เคยเรียนจบชั้นประถม" ถ้าเป็นเช่นนั้นฉันจะกังวลเกี่ยวกับความแม่นยำของผลการทดสอบที่เหลือของคุณสำหรับผู้ทำแบบทดสอบเหล่านั้น

— มิเชล

"เธอไปโรงเรียนได้ไกลแค่ไหน?" - 1) เกรดแปดหรือน้อยกว่า

— Michael Bishop

คุณอาจมีผู้ทดสอบย่อยที่ทำเครื่องหมายเลือกตัวเลือกการตอบคำถามแรกสำหรับแต่ละคำถาม คุณตรวจสอบได้ไหม

— มิเชล

เนื้อเรื่องนั้นลึกซึ้งมาก มันดูสมมาตรพอสมควรซึ่งไม่ใช่สิ่งที่คุณคาดหวังหากในความเป็นจริงแล้วเด็ก ๆ หลายคนก็ทำตามคำตอบแรก หากเป็นกรณีนั้นกรณีจะมีแนวโน้มที่จะจัดกลุ่มตามแถวด้านล่าง แน่นอน 'การมอง' สมมาตรไม่ได้รับประกันว่ามันจะเป็นจริง แต่เป็นการเริ่มต้นที่ดี ความสัมพันธ์ที่แข็งแกร่งที่คุณสังเกตเห็นระหว่างการตอบสนองของแม่และเด็กก็สอดคล้องกับสิ่งนี้

— Will

อ่า ฉันเห็น. ถ้าอย่างนั้นฉันก็ลังเลที่จะใส่ข้อมูลที่มีอยู่แล้วและอยากจะแนะนำว่ามันไม่ได้ทำอะไรเลยแม้จะมีข้อโต้แย้งเช่นนี้: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

คำตอบ:

สิ่งแรกที่ควรทราบคือตัวแปรของคุณคือ: "สิ่งที่นักเรียนพูดเกี่ยวกับการศึกษาของแม่" และ "สิ่งที่แม่ของนักเรียนพูดเกี่ยวกับการศึกษาของแม่ของนักเรียน" เรียกพวกเขาว่า S และ M ตามลำดับและกำหนดระดับการศึกษาของแม่ที่แท้จริง

S และ M มีทั้งค่าที่หายไปและไม่มีอะไรผิดพลาด (modulo การสังเกตด้านล่าง) ด้วยการใส่ M และ S ในรูปแบบการใส่ความ แต่ใช้เพียงหนึ่งในการวิเคราะห์ที่ตามมา วิธีอื่น ๆ จะไม่สามารถมองเห็นได้เสมอ

คำถามนี้แยกออกจากคำถามอื่นอีกสามข้อ:

คุณค่าที่ขาดหายไปหมายความว่านักเรียนไม่ทราบหรือไม่ต้องการพูดเรื่องนั้นมากเกี่ยวกับแม่ของพวกเขา?
จะใช้ S และ M เพื่อเรียนรู้เกี่ยวกับ T ได้อย่างไร
คุณมีการขาดหายไปที่ถูกต้องเพื่อให้การใส่หลาย ๆ แบบทำงานได้หรือไม่?

ไม่รู้และขาดหายไป

คุณอาจสนใจใน T แต่คุณไม่จำเป็นต้อง: การรับรู้ถึงความสำเร็จทางการศึกษา (ผ่าน S และอาจ M) หรือการขาดความรู้ของนักเรียนอาจน่าสนใจกว่าสาเหตุ T มากกว่า การใส่เข้าไปอาจเป็นเส้นทางที่สมเหตุสมผลในช่วงแรก แต่อาจเป็นหรือไม่เป็นครั้งที่สอง คุณต้องตัดสินใจ

เรียนรู้เกี่ยวกับต

สมมติว่าคุณสนใจจริง ๆ ใน T หากไม่มีการวัดมาตรฐานทองคำ (เนื่องจากบางครั้งคุณสงสัย M) มันยากที่จะทราบว่าคุณอาจรวม S และ M เข้าด้วยกันอย่างไรเพื่อเรียนรู้เกี่ยวกับ T หากคุณเป็น เต็มใจที่จะปฏิบัติต่อ M อย่างถูกต้องเมื่อมีอยู่คุณสามารถใช้ S เพื่อทำนาย M ในรูปแบบการจำแนกประเภทที่มีข้อมูลอื่น ๆ จากนักเรียนแล้วใช้ M แทน S ในการวิเคราะห์ขั้นสุดท้าย ข้อกังวลที่นี่จะเกี่ยวกับการเลือกอคติในกรณีที่คุณได้รับการฝึกอบรมซึ่งนำไปสู่ปัญหาที่สาม:

Missingness

การใส่ข้อมูลหลายตัวสามารถทำงานได้หรือไม่นั้นขึ้นอยู่กับว่าข้อมูลหายไปโดยสมบูรณ์แบบสุ่ม (MCAR) หรือขาดหายไปเมื่อสุ่ม (MAR) S หายไปโดยการสุ่ม (MAR) หรือไม่ อาจไม่ใช่เพราะนักเรียนอาจละอายใจที่จะตอบเกี่ยวกับการขาดการศึกษาของแม่และข้ามคำถาม จากนั้นค่าจะเป็นตัวกำหนดว่าจะหายไปหรือไม่และการใส่หลายครั้งไม่สามารถช่วยได้ที่นี่ ในทางตรงกันข้ามหากการศึกษาต่ำที่มีสิ่งที่ถูกถามและตอบบางส่วนในการสำรวจเช่นตัวบ่งชี้ของรายได้บางส่วน MAR อาจมีเหตุผลมากกว่าและการใส่ความคิดหลาย ๆ M ขาดการสุ่มหรือไม่? ใช้การพิจารณาแบบเดียวกัน

สุดท้ายแม้ว่าคุณจะสนใจ T และใช้วิธีการจัดหมวดหมู่คุณยังคงต้องการใส่เข้าไปในแบบจำลองนั้น

— conjugateprior
แหล่งที่มา

หากคุณจะสมมติว่า "อัตราความขัดแย้ง" นั้นเหมือนกันสำหรับตัวอย่างทั้งหมดเนื่องจากเป็นตัวอย่างย่อยที่แม่มีการสำรวจความคิดเห็นจากนั้นกลุ่มตัวอย่างจะต้องถูกสุ่ม ในคำอธิบายของคุณคุณไม่ได้พูดดังนั้นฉันหยิบยกประเด็นนี้ขึ้นมาเพราะฉันคิดว่ามันมีความหมายที่สำคัญว่าคุณจะสามารถใช้ข้อมูลนี้จากตัวอย่างย่อยเพื่อสรุปได้อย่างไรเกี่ยวกับตัวอย่างทั้งหมดของนักเรียน

สำหรับฉันแล้วดูเหมือนว่ามีสามแง่มุมสำหรับปัญหาความขัดแย้งนี้

1 คืออัตราของความขัดแย้ง เป็นกรณีที่นักเรียน 3 / 4th เดาผิดหรือเปล่า?

2 คือระดับของความผิด - เป็นเรื่องหนึ่งที่จะบอกว่าแม่ของคุณไม่เคยเรียนจบชั้นประถมเมื่อเธอทำเสร็จแล้ว แต่หยุดอยู่ที่นั่นและอีกครั้งหนึ่งที่จะบอกว่าเธอไม่เคยเรียนจบชั้นประถมเมื่อเธอจบปริญญาเอก

3 คือสัดส่วนของตัวอย่างที่คุณสามารถตรวจสอบข้ามได้ หากคุณกำลังหาข้อสรุปเหล่านี้ในตัวอย่างย่อย 20 รายการฉันจะพนันได้เลยว่าการประมาณการไม่เสถียรและอาจไม่คุ้มค่ามากนัก

ดูเหมือนว่าสิ่งที่คุณทำจะขึ้นอยู่กับคำตอบของคุณสำหรับคำถามเหล่านี้และคำถามที่ฉันถาม ตัวอย่างเช่นถ้า 1 ค่อนข้างสูงและ 3 ค่อนข้างสูงดังนั้นฉันอาจใช้ชุดย่อยและดำเนินการกับมัน หาก 1 สูง แต่ 2 ต่ำแล้วปัญหาก็ไม่ได้แย่ขนาดนั้นและอีกครั้งมันอาจไม่คุ้มกับปัญหา

มันอาจคุ้มค่าที่จะรู้ว่าข้อผิดพลาดนั้นเป็นแบบสุ่มหรือเป็นระบบ หากนักเรียนมีแนวโน้มที่จะประเมินการศึกษาของแม่อย่างเป็นระบบนั่นเป็นปัญหามากกว่าถ้าพวกเขาเข้าใจผิดบางครั้ง

ฉันได้ใส่ร้ายลงไปในเอกสารสองสามฉบับและดูเหมือนว่าฉันจะสร้างปัญหาให้ตัวเองมากขึ้น อย่างน้อยผู้ตรวจสอบในพื้นที่ของฉันมักไม่มีวิธีการจัดการที่ดีและน่าสงสัยในการใช้งาน ฉันรู้สึกว่าบางครั้งมันก็ดีขึ้นจากมุมมองของสิ่งพิมพ์เพื่อเพียงรับทราบปัญหาและดำเนินการต่อไป แต่ในกรณีนี้คุณไม่ได้ 'ใส่ข้อมูลที่ขาดหายไป' แต่กำลังแนะนำการแปรปรวนข้อผิดพลาดที่คาดการณ์ไว้สำหรับตัวแปร มันเป็นคำถามที่น่าสนใจและวางความกังวลทั้งหมดไว้ด้วยกันฉันไม่แน่ใจด้วยซ้ำว่าฉันจะทำยังไงถ้าฉันตัดสินใจว่ามันเป็นแนวทางที่ดีที่สุด

— จะ
แหล่งที่มา

ขอบคุณฉันจะอธิบายบางสิ่งในโพสต์ดั้งเดิมของฉัน ตัวอย่างย่อยสุ่ม ฉันดึงสถิติ 3/4 ออกจากหมวกเพื่อให้ได้คะแนน สถิติที่แท้จริงน้อยกว่า ฉันสามารถตรวจสอบได้ประมาณ 10,000 ราย ฉันแน่ใจว่าข้อผิดพลาดไม่ได้สุ่มอย่างแท้จริง

— Michael Bishop