ฉันจะรวบรวมวิธีการหลังและช่วงเวลาที่น่าเชื่อถือหลังจากการใส่ร้ายหลายครั้งได้อย่างไร


20

ฉันใช้การใส่หลายชุดเพื่อรับชุดข้อมูลที่สมบูรณ์จำนวนหนึ่ง

ฉันได้ใช้วิธีการแบบเบย์ในชุดข้อมูลแต่ละชุดที่เสร็จสมบูรณ์เพื่อรับการแจกแจงด้านหลังสำหรับพารามิเตอร์ (เอฟเฟกต์แบบสุ่ม)

ฉันจะรวม / รวมผลลัพธ์สำหรับพารามิเตอร์นี้ได้อย่างไร


บริบทเพิ่มเติม:

แบบจำลองของฉันเป็นแบบลำดับชั้นในแง่ของนักเรียนแต่ละคน (หนึ่งการสังเกตต่อนักเรียนหนึ่งคน) จัดเป็นกลุ่มในโรงเรียน ฉันได้ทำการใส่หลาย ๆ ครั้ง (ใช้MICEใน R) กับข้อมูลของฉันซึ่งฉันรวมไว้schoolเป็นหนึ่งในตัวทำนายสำหรับข้อมูลที่หายไป - เพื่อพยายามรวมลำดับชั้นของข้อมูลเข้ากับการใส่ข้อมูล

ฉันได้ติดตั้งโมเดลความชันสุ่มแบบง่ายกับชุดข้อมูลที่สมบูรณ์แต่ละชุด (ใช้MCMCglmmใน R) ผลลัพธ์ที่ได้คือไบนารี

ฉันได้พบว่าความหนาแน่นด้านหลังของความแปรปรวนแบบสุ่มเป็น "พฤติกรรมที่ดี" ในแง่ที่ว่าพวกเขามีลักษณะเช่นนี้: ป้อนคำอธิบายรูปภาพที่นี่

ฉันจะรวม / รวมหมายถึงหลังและช่วงเวลาที่น่าเชื่อถือจากชุดข้อมูลแต่ละอันที่มีการกำหนดไว้สำหรับเอฟเฟกต์แบบสุ่มนี้ได้อย่างไร


อัปเดต 1 :

จากสิ่งที่ฉันเข้าใจจนถึงตอนนี้ฉันสามารถนำกฎของรูบินไปใช้กับค่าเฉลี่ยหลังเพื่อให้ค่าเฉลี่ยหลังซึ่งมีการโต้แย้งกันหลายครั้ง - มีปัญหาอะไรไหมกับการทำเช่นนี้? แต่ฉันไม่รู้ว่าจะรวมช่วงเวลาที่น่าเชื่อถือได้ 95% อย่างไร นอกจากนี้เนื่องจากฉันมีตัวอย่างความหนาแน่นด้านหลังที่แท้จริงสำหรับการใส่ร้ายแต่ละครั้ง - ฉันสามารถรวมสิ่งเหล่านี้ได้หรือไม่


อัปเดต 2 :

ตามคำแนะนำของ @ cyan ในความคิดเห็นฉันชอบความคิดที่จะรวมตัวอย่างจากการแจกแจงหลังที่ได้จากชุดข้อมูลแต่ละชุดจากการใส่หลายครั้ง อย่างไรก็ตามฉันควรจะรู้เหตุผลทางทฤษฎีสำหรับการทำเช่นนี้


หากการหายไปของตัวเลขใด ๆ ที่เป็นอิสระจากค่าผลลัพธ์ที่เกี่ยวข้องมันถูกต้องเพียงแค่โยนตัวอย่างหลังทั้งหมดจากชุดข้อมูลที่แตกต่างกันและใช้ค่าเฉลี่ยและช่วงเวลาที่น่าเชื่อถือ 95% ของตัวอย่างหลังรวมกัน
สีฟ้า

@Canan เป็นเช่นเดียวกับที่บอกว่ากลไกการหายไปนั้นเป็น "การขาดโดยการสุ่ม" หรือ "การหายไปโดยการสุ่ม" แต่ไม่ใช่ "การหายไปไม่ใช่การสุ่ม" (สมมติฐานปกติที่ฉันเรียนรู้เกี่ยวกับการแสดง MI)? คุณรู้หรือไม่การอ้างอิงใด ๆ ที่การ "รวมตัวกัน" นี้เป็นธรรมอย่างเป็นทางการ?
Joe King

การใส่ความคิดหลายอย่างเป็นขั้นตอนแบบเบย์ที่สำคัญ หากคุณใช้วิธีการแบบเบย์สำหรับการประมาณค่า (MCMC และอื่น ๆ ) คุณควรจะทำการจำลองข้อมูลที่ขาดหายไปเป็นขั้นตอนการสุ่มตัวอย่างแบบ MCMC เพิ่มเติมสำหรับแบบจำลองแบบเบย์แบบเต็มและไม่ต้องพยายามหาส่วนติดต่อระหว่างวิธีการเหล่านี้
StasK

@StasK ขอบคุณสำหรับความคิดเห็นของคุณ ฉันจะพยายามใช้วิธีการนั้นกับโครงการต่อไปของฉัน แต่น่าเสียดายที่ฉันไม่มีเวลาเปลี่ยนโมเดลในตอนนี้ ฉันรันการใส่ข้อมูลและโมเดลแบบเบย์ในชุดข้อมูลแต่ละชุดซึ่งใช้เวลาเกือบ 3 สัปดาห์ในการรัน คุณคิดว่ามันไม่ถูกต้องหรือไม่ที่ฉันจะรวมตัวอย่างด้านหลัง?
Joe King

กฎของรูบินนั้นใช้กับช่วงเวลาเท่านั้น ฉันไม่รู้ว่าคุณสามารถนำไปใช้กับการแจกจ่ายได้อย่างมีความหมายหรือไม่ อาจจะอาจจะไม่. อาจเป็นไปได้ว่าสิ่งที่ดีที่สุดที่คุณสามารถทำได้คือการกล่าวว่าการเรียกใช้ MCMC นั้นสร้างการประมาณจุด (ความหมายด้านหลัง) และข้อผิดพลาดมาตรฐาน (ความแปรปรวนด้านหลัง) จากนั้นใช้กฎของรูบินเพื่อให้ได้คะแนนโดยประมาณ คุณรู้ว่าการสูญเสีย dfs ในรูปแบบลำดับชั้นนั้นน่าเศร้าแค่ไหนและอันตรายแค่ไหนที่จะรวมข้อมูล: ถ้าคุณมีชุดข้อมูลที่สมบูรณ์ 5 ชุดและตัวอย่าง 1M MCMC ในแต่ละชุดหมายความว่าคุณมี 5 กลุ่มไม่ใช่ 5M iid MCMC จุด
StasK

คำตอบ:


4

ด้วยโปสเตอร์ที่มีความประพฤติดีที่สามารถอธิบายได้อย่างเพียงพอด้วยคำอธิบายเชิงพารามิเตอร์ของการแจกแจงคุณอาจจะสามารถใช้ค่าเฉลี่ยและความแปรปรวนที่อธิบายถึงด้านหลังของคุณได้ดีที่สุด ฉันสงสัยว่านี่อาจจะเพียงพอในหลาย ๆ กรณีที่คุณไม่ได้รับการแจกแจงหลังที่แปลกอย่างแท้จริง


0

ถ้าคุณใช้ stata มีโพรซีเดอร์ที่เรียกว่า "mim" ที่รวมข้อมูลหลังจากการใส่เข้าไปใช้สำหรับโมเดลเอฟเฟกต์ผสม ฉันไม่รู้ว่ามันมีอยู่ในอาร์


ขอขอบคุณ. ฉันอาจไม่ได้อธิบายอย่างดี - ฉันมีตัวอย่างด้านหลังแล้วจากชุดข้อมูลที่ถูกใส่ข้อมูลหลายชุดและฉันต้องการทราบว่าฉันสามารถรวมสิ่งเหล่านี้เข้าด้วยกันแล้วสร้างช่วงเวลาที่น่าเชื่อถือที่ทวีคูณได้หรือไม่?
Joe King
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.