การแยกความแตกต่างขาดหายไปโดยการสุ่ม (MAR) จากการขาดหายไปอย่างสมบูรณ์แบบสุ่ม (MCAR)


13

ฉันมีสองสิ่งนี้อธิบายหลายครั้ง พวกเขาทำอาหารสมองของฉันต่อไป Missing Not at Random ทำให้รู้สึกไม่ถูกและ Missing Complete โดยสมบูรณ์ทำให้รู้สึกว่า ... มันเป็น Missing at Random ที่ไม่มาก

ทำให้เกิดข้อมูลที่จะ MAR แต่ไม่ใช่ MCAR อะไร


คำถามของคุณตอบด้วยคำถามอื่น ๆ นี้หรือไม่มีเหตุผลที่ดีสำหรับชื่อ "Missing at Random" หรือไม่? และรายการทรัพยากรมีอะไรบ้าง
Andy W

3
@AndyW จะทื่อไม่มี การสนทนาที่น่าสนใจเกี่ยวกับสาเหตุที่ชื่อมีข้อบกพร่องและบทความที่แฝงตัวอยู่ในกระดานข่าว
Fomite

คำตอบ:


18

การพลาดแบบสุ่ม (MAR) หมายถึงตัวแปรที่คุณสามารถอธิบายข้อมูลที่หายไปได้ มันไม่ใช่ข้อสมมุติที่พิสูจน์ได้ แต่มีหลายกรณีที่มันสมเหตุสมผลและไม่

ตัวอย่างเช่นใช้ความคิดเห็นทางการเมือง หลายคนปฏิเสธที่จะตอบ หากคุณคิดว่าเหตุผลที่ผู้คนปฏิเสธที่จะตอบนั้นมาจากข้อมูลประชากรทั้งหมดและหากคุณมีข้อมูลประชากรเหล่านั้นในแต่ละบุคคลข้อมูลนั้นก็คือ MAR เป็นที่ทราบกันว่าสาเหตุบางประการที่ผู้คนปฏิเสธที่จะตอบนั้นขึ้นอยู่กับข้อมูลประชากร (ตัวอย่างเช่นคนที่มีรายได้ต่ำและสูงมักจะตอบได้น้อยกว่าคนที่อยู่ตรงกลาง) แต่ไม่มีวิธีรู้ว่าจริงหรือไม่ เป็นคำอธิบายที่สมบูรณ์

ดังนั้นคำถามจะกลายเป็น "เต็มหรือไม่" บ่อยครั้งที่วิธีการเช่นการทำงานการใส่ร้ายหลายดีกว่าวิธีการอื่น ๆ ตราบใดที่ข้อมูลจะไม่มากหายไปไม่ได้ที่สุ่ม


5
วารสารสถิติซอฟต์แวร์ (ออนไลน์) มีปัญหาที่ล่าสุดเกี่ยวกับการใส่ร้ายหลายและฉันได้รับการมองหาที่แพคเกจการใส่ร้ายหลายบิ๊กสามสำหรับ R: Amelia, และmi miceความคล้ายคลึงและความแตกต่างนั้นน่าหลงใหล ( Amelia's over imputeค่อนข้างน่าสนใจ.)
เวย์น

1
นี่คือลิงค์ไปสู่ปัญหาของ JSS: jstatsoft.org/v45
gung - Reinstate Monica

11

ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ แต่วิธีที่ฉันพยายามเข้าใจก็คือราวกับว่ามีเมทริกซ์ความเป็นไปได้ 2x2 ซึ่งไม่สมมาตร สิ่งที่ต้องการ:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

นั่นคือถ้ามีรูปแบบของตัวแปรที่หายไปและข้อมูลที่เราไม่สามารถอธิบายได้ก็คือเรามี MNAR แต่ถ้าข้อมูลที่เรามี (เช่นตัวแปรอื่น ๆ ในชุดข้อมูลของเรา) สามารถอธิบายได้ว่าเรามี MAR หากไม่มีรูปแบบสำหรับความหายไปนั่นคือ MCAR

ฉันอาจจะออกจากที่นี่ นอกจากนี้สิ่งนี้จะเปิดคำจำกัดความของ "รูปแบบ" และ "ข้อมูลอธิบาย" ฉันคิดว่า "Data อธิบาย" ตามความหมายตัวแปรอื่น ๆ ในชุดข้อมูลของคุณอธิบาย แต่ฉันเชื่อว่ากระบวนการของคุณสามารถอธิบายได้ (เช่นตัวอย่างที่ดีในเธรดอื่นคือถ้าคุณมีตัวแปรการวัดสามตัวที่วัดสิ่งเดียวกันและของคุณ ขั้นตอนคือถ้าการวัดสองครั้งแรกไม่เห็นด้วยมากเกินไปที่คุณทำการวัดครั้งที่สาม)

มันแม่นยำเพียงพอสำหรับสัญชาตญาณ CV ใช่ไหม


-1

ฉันพยายามดิ้นรนที่จะเข้าใจความแตกต่างดังนั้นตัวอย่างบางอย่างอาจช่วยได้

MCAR : ขาดการสุ่มอย่างสมบูรณ์นี่ยอดเยี่ยมมาก หมายความว่าการไม่ตอบสนองเป็นแบบสุ่มสมบูรณ์ ดังนั้นการสำรวจของคุณจึงไม่ลำเอียง

มี.ค. : ไม่มีสถานการณ์แบบสุ่มและแย่กว่านั้น ลองนึกภาพคุณกำลังถามหา IQ และคุณมีผู้เข้าร่วมหญิงมากกว่าผู้ชาย โชคดีสำหรับคุณ IQ ไม่เกี่ยวข้องกับเพศดังนั้นคุณสามารถควบคุมเพศ (ใช้น้ำหนัก) เพื่อลดอคติ

MNAR : การสุ่มไม่ดี พิจารณาการสำรวจระดับรายได้ และอีกครั้งคุณมีผู้หญิงมากกว่าผู้เข้าร่วมชาย ในกรณีนี้เป็นปัญหาเนื่องจากระดับรายได้เกี่ยวข้องกับเพศ ดังนั้นผลลัพธ์ของคุณจะลำเอียง ไม่ง่ายที่จะกำจัด

คุณเห็นว่ามันเป็นความสัมพันธ์ "สามเหลี่ยม" ระหว่างตัวแปรเป้าหมาย (Y เช่นรายได้), ตัวแปรเสริม (X, เช่นอายุ) และพฤติกรรมการตอบสนอง (R, กลุ่มตอบกลับ) ถ้า X เกี่ยวข้องกับ R เท่านั้น good-ish (MAR) หากมีความสัมพันธ์ระหว่าง X และ R และ X และ Y มันไม่ดี (MNAR)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.