ฉันมีสองสิ่งนี้อธิบายหลายครั้ง พวกเขาทำอาหารสมองของฉันต่อไป Missing Not at Random ทำให้รู้สึกไม่ถูกและ Missing Complete โดยสมบูรณ์ทำให้รู้สึกว่า ... มันเป็น Missing at Random ที่ไม่มาก
ทำให้เกิดข้อมูลที่จะ MAR แต่ไม่ใช่ MCAR อะไร
ฉันมีสองสิ่งนี้อธิบายหลายครั้ง พวกเขาทำอาหารสมองของฉันต่อไป Missing Not at Random ทำให้รู้สึกไม่ถูกและ Missing Complete โดยสมบูรณ์ทำให้รู้สึกว่า ... มันเป็น Missing at Random ที่ไม่มาก
ทำให้เกิดข้อมูลที่จะ MAR แต่ไม่ใช่ MCAR อะไร
คำตอบ:
การพลาดแบบสุ่ม (MAR) หมายถึงตัวแปรที่คุณสามารถอธิบายข้อมูลที่หายไปได้ มันไม่ใช่ข้อสมมุติที่พิสูจน์ได้ แต่มีหลายกรณีที่มันสมเหตุสมผลและไม่
ตัวอย่างเช่นใช้ความคิดเห็นทางการเมือง หลายคนปฏิเสธที่จะตอบ หากคุณคิดว่าเหตุผลที่ผู้คนปฏิเสธที่จะตอบนั้นมาจากข้อมูลประชากรทั้งหมดและหากคุณมีข้อมูลประชากรเหล่านั้นในแต่ละบุคคลข้อมูลนั้นก็คือ MAR เป็นที่ทราบกันว่าสาเหตุบางประการที่ผู้คนปฏิเสธที่จะตอบนั้นขึ้นอยู่กับข้อมูลประชากร (ตัวอย่างเช่นคนที่มีรายได้ต่ำและสูงมักจะตอบได้น้อยกว่าคนที่อยู่ตรงกลาง) แต่ไม่มีวิธีรู้ว่าจริงหรือไม่ เป็นคำอธิบายที่สมบูรณ์
ดังนั้นคำถามจะกลายเป็น "เต็มหรือไม่" บ่อยครั้งที่วิธีการเช่นการทำงานการใส่ร้ายหลายดีกว่าวิธีการอื่น ๆ ตราบใดที่ข้อมูลจะไม่มากหายไปไม่ได้ที่สุ่ม
Amelia
, และmi
mice
ความคล้ายคลึงและความแตกต่างนั้นน่าหลงใหล ( Amelia
's over impute
ค่อนข้างน่าสนใจ.)
ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ แต่วิธีที่ฉันพยายามเข้าใจก็คือราวกับว่ามีเมทริกซ์ความเป็นไปได้ 2x2 ซึ่งไม่สมมาตร สิ่งที่ต้องการ:
Pattern / Data Explains Pattern
Yes No
Yes MAR MNAR
No -- MCAR
นั่นคือถ้ามีรูปแบบของตัวแปรที่หายไปและข้อมูลที่เราไม่สามารถอธิบายได้ก็คือเรามี MNAR แต่ถ้าข้อมูลที่เรามี (เช่นตัวแปรอื่น ๆ ในชุดข้อมูลของเรา) สามารถอธิบายได้ว่าเรามี MAR หากไม่มีรูปแบบสำหรับความหายไปนั่นคือ MCAR
ฉันอาจจะออกจากที่นี่ นอกจากนี้สิ่งนี้จะเปิดคำจำกัดความของ "รูปแบบ" และ "ข้อมูลอธิบาย" ฉันคิดว่า "Data อธิบาย" ตามความหมายตัวแปรอื่น ๆ ในชุดข้อมูลของคุณอธิบาย แต่ฉันเชื่อว่ากระบวนการของคุณสามารถอธิบายได้ (เช่นตัวอย่างที่ดีในเธรดอื่นคือถ้าคุณมีตัวแปรการวัดสามตัวที่วัดสิ่งเดียวกันและของคุณ ขั้นตอนคือถ้าการวัดสองครั้งแรกไม่เห็นด้วยมากเกินไปที่คุณทำการวัดครั้งที่สาม)
มันแม่นยำเพียงพอสำหรับสัญชาตญาณ CV ใช่ไหม
ฉันพยายามดิ้นรนที่จะเข้าใจความแตกต่างดังนั้นตัวอย่างบางอย่างอาจช่วยได้
MCAR : ขาดการสุ่มอย่างสมบูรณ์นี่ยอดเยี่ยมมาก หมายความว่าการไม่ตอบสนองเป็นแบบสุ่มสมบูรณ์ ดังนั้นการสำรวจของคุณจึงไม่ลำเอียง
มี.ค. : ไม่มีสถานการณ์แบบสุ่มและแย่กว่านั้น ลองนึกภาพคุณกำลังถามหา IQ และคุณมีผู้เข้าร่วมหญิงมากกว่าผู้ชาย โชคดีสำหรับคุณ IQ ไม่เกี่ยวข้องกับเพศดังนั้นคุณสามารถควบคุมเพศ (ใช้น้ำหนัก) เพื่อลดอคติ
MNAR : การสุ่มไม่ดี พิจารณาการสำรวจระดับรายได้ และอีกครั้งคุณมีผู้หญิงมากกว่าผู้เข้าร่วมชาย ในกรณีนี้เป็นปัญหาเนื่องจากระดับรายได้เกี่ยวข้องกับเพศ ดังนั้นผลลัพธ์ของคุณจะลำเอียง ไม่ง่ายที่จะกำจัด
คุณเห็นว่ามันเป็นความสัมพันธ์ "สามเหลี่ยม" ระหว่างตัวแปรเป้าหมาย (Y เช่นรายได้), ตัวแปรเสริม (X, เช่นอายุ) และพฤติกรรมการตอบสนอง (R, กลุ่มตอบกลับ) ถ้า X เกี่ยวข้องกับ R เท่านั้น good-ish (MAR) หากมีความสัมพันธ์ระหว่าง X และ R และ X และ Y มันไม่ดี (MNAR)