วิธีการรวมช่วงความมั่นใจสำหรับองค์ประกอบความแปรปรวนของแบบผสมผลกระทบเมื่อใช้การใส่หลายครั้ง


20

ตรรกะของการใส่หลายครั้ง (MI) คือการกำหนดค่าที่หายไปไม่ใช่ครั้งเดียว แต่หลายครั้ง (โดยทั่วไปคือ M = 5) ส่งผลให้ชุดข้อมูล M สมบูรณ์ ชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M จะถูกวิเคราะห์ด้วยวิธีการข้อมูลที่สมบูรณ์ซึ่งการประเมิน M และข้อผิดพลาดมาตรฐานถูกรวมเข้าด้วยกันโดยใช้สูตรรูบินเพื่อรับการประเมินโดยรวมและข้อผิดพลาดมาตรฐาน

เยี่ยมมาก แต่ฉันไม่แน่ใจว่าจะใช้สูตรนี้อย่างไรเมื่อส่วนประกอบต่าง ๆ ของแบบผสมเอฟเฟกต์เกี่ยวข้องกัน การกระจายตัวตัวอย่างขององค์ประกอบความแปรปรวนเป็นแบบอสมมาตรดังนั้นจึงไม่สามารถกำหนดช่วงความเชื่อมั่นที่สอดคล้องกันในรูปแบบ "การประมาณ± 1.96 * se (ประมาณ)" โดยทั่วไป ด้วยเหตุนี้แพ็คเกจ R lme4 และ nlme จึงไม่ได้จัดเตรียมข้อผิดพลาดมาตรฐานของส่วนประกอบความแปรปรวน แต่ให้ช่วงความมั่นใจเท่านั้น

ดังนั้นเราสามารถดำเนินการ MI บนชุดข้อมูลจากนั้นรับช่วงความเชื่อมั่น M ต่อองค์ประกอบความแปรปรวนหลังจากปรับโมเดลเอฟเฟกต์แบบเดียวกันบนชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M คำถามคือทำอย่างไรจึงจะรวมช่วง M เหล่านี้เข้ากับช่วงความมั่นใจโดยรวม

ฉันเดาว่าน่าจะเป็นไปได้ - ผู้เขียนบทความ (yucel & demirtas (2010) ผลกระทบของการสุ่มเอฟเฟ็กต์ที่ไม่ปกติในการอนุมานโดย MI) ดูเหมือนจะทำได้ แต่พวกเขาไม่ได้อธิบายอย่างชัดเจน

เคล็ดลับใด ๆ ที่จะต้องรับผิดชอบมาก!

ไชโยร็อค


คำถามที่น่าสนใจมาก ฉันหวังว่าจะได้ยินจากผลลัพธ์ของคุณถ้าคุณต้องการที่จะแบ่งปันให้ ...
CHL

@chl: ฉันสามารถส่งตารางพร้อมผลลัพธ์เมื่อคุณทำเสร็จ แต่ฉันจะไม่ประดิษฐ์สิ่งใหม่จริงๆ จนถึงตอนนี้ฉันแค่วางแผนที่จะเปรียบเทียบ MI ภายใต้โมเดลการใส่สองระดับ (R package pan) กับ MI ภายใต้โมเดลปกติธรรมดา (โดยไม่สนใจโครงสร้างสองระดับ, บรรทัดฐานแพ็กเกจ R) และการลบแบบรายการ ภายใต้ขนาดตัวอย่างที่แตกต่างกันค่าขององค์ประกอบความแปรปรวน ฯลฯ ซึ่งควรจะเพียงพอสำหรับการสัมมนา (ฉันเป็นนักศึกษาปริญญาเอก) แต่ก็ไม่ได้ก้าวล้ำ หากคุณมีความคิดเกี่ยวกับวิธีการ "ศึกษาดนตรีแจ๊ส" แบบจำลองการศึกษาฉันชอบที่จะได้ยิน
Rok

1
อีกอย่างหนึ่ง: ฉันไม่แน่ใจว่าโซลูชันการวิเคราะห์ที่เหมาะสมสำหรับปัญหานี้ยังมีอยู่ ฉันได้ดูวรรณกรรมเพิ่มเติมบางส่วน แต่ปัญหานี้ดูอย่างสง่างามทุกที่ ฉันได้สังเกตเห็นด้วยว่า yucel & demirtas (ในบทความที่ฉันพูดถึงหน้า 798) เขียน:“ ชุดข้อมูลที่ใส่จำนวนทวีคูณเหล่านี้ใช้เพื่อประเมินโมเดล […] โดยใช้แพ็คเกจ R lme4 ซึ่งนำไปสู่ ​​10 ชุด (เบต้า, se (เบต้า) ), (sigma_b, se (sigma_b)) ซึ่งรวมกันแล้วใช้ MI การรวมกฎที่กำหนดโดย Rubin”
Rok

ดูเหมือนว่าพวกเขาใช้ทางลัดบางอย่างเพื่อประเมิน SE ขององค์ประกอบความแปรปรวน (ซึ่งแน่นอนว่าไม่เหมาะสมเนื่องจาก CI นั้นไม่สมดุล) จากนั้นจึงใช้สูตรคลาสสิก
Rok

ตกลงขอบคุณสำหรับสิ่งนั้น คุณสามารถใส่ความคิดเห็นของคุณลงในคำตอบเพื่อให้สามารถลงคะแนนได้หรือไม่?
chl

คำตอบ:


8

นี่เป็นคำถามที่ยอดเยี่ยม! ไม่แน่ใจว่านี่เป็นคำตอบที่สมบูรณ์ แต่ฉันจะวางไม่กี่บรรทัดในกรณีที่มันช่วยได้

ดูเหมือนว่า Yucel และ Demirtas (2010) อ้างถึงเอกสารเก่าที่ตีพิมพ์ใน JCGS กลยุทธ์การคำนวณสำหรับตัวแบบผสมหลายตัวแปรเชิงเส้นแบบหลายตัวแปรที่มีค่าขาดหายไปซึ่งใช้วิธีการให้คะแนน EM / Fisher แบบผสมสำหรับการประมาณค่าความน่าจะเป็น . มันได้รับการดำเนินการในแพคเกจการ R mlmmm อย่างไรก็ตามฉันก็ไม่รู้ถ้ามันผลิต CIs

มิฉะนั้นฉันจะตรวจสอบโปรแกรมWinBUGSซึ่งส่วนใหญ่ใช้สำหรับรุ่นหลายระดับรวมถึงผู้ที่มีข้อมูลที่ขาดหายไป ฉันดูเหมือนจะจำได้ว่ามันจะทำงานได้ก็ต่อเมื่อ MV ของคุณอยู่ในตัวแปรการตอบสนองไม่ใช่ใน covariates เพราะโดยทั่วไปเราต้องระบุการแจกแจงแบบมีเงื่อนไขเต็มรูปแบบ (หาก MV อยู่ในตัวแปรอิสระนั่นหมายความว่าเราต้องให้ก่อน Xs ที่หายไปและจะถือว่าเป็นพารามิเตอร์ที่จะได้รับการประมาณการโดย WinBUGS ... ) มันดูเหมือนว่าจะนำไปใช้กับ R รวมถ้าผมหมายถึงหัวข้อต่อไปนี้บน R-sig ผสมข้อมูลที่ขาดหายไปใน LME, lmer, PROC ผสม นอกจากนี้ยังอาจคุ้มค่ากับการดูซอฟต์แวร์MLwiN


ขอบคุณมากสำหรับคำตอบของคุณ! ในหลักการฉันยังสนใจในการแก้ปัญหาที่เป็นรูปธรรมเหมือนที่ฉันอธิบายไว้ (เช่นขอขอบคุณสำหรับเคล็ดลับ WinBUGS) แต่ในขณะนี้ฉันกำลังพยายามศึกษาแบบจำลองเพื่อการสัมมนาซึ่งฉันจะตรวจสอบประสิทธิภาพ (อัตราการครอบคลุมและอื่น ๆ ) ของ MI ภายใต้การสะกดคำผิดแบบ ฉันคิดว่าฉันจะลืมเกี่ยวกับองค์ประกอบความแปรปรวนถ้าฉันไม่สามารถหาวิธีการแก้ปัญหาและมุ่งเน้นไปที่ผลกระทบคงที่ แต่มันน่าผิดหวังที่จะให้ขึ้น
Rok

@ ROK ความคิดที่ดีสำหรับการจำลอง! ฉันจะรอดูปัญหานี้โดยเฉพาะ ฉันคิดว่าคุณค้นหาอยู่แล้วในทางไปรษณีย์ R-sig ผสมและหนังสือ Gelman ในการถดถอยหลาย ...
CHL

ฉันดูแล้วรถถังสำหรับการอ้างอิง! น่าเสียดายที่ MI ไม่มีสิ่งใดในคลังเก็บอาร์เอสซิก และ Gelman ให้เฉพาะสูตรพื้นฐานเกี่ยวกับวิธีการรวมการอนุมานจาก MI เมื่อเรามีการเปลี่ยนแปลงภายในและระหว่างการใส่ข้อมูล (§25.7)
Rok

6

แสดงความคิดเห็นซ้ำจากด้านบน:

ฉันไม่แน่ใจว่าโซลูชันการวิเคราะห์ที่เหมาะสมสำหรับปัญหานี้ยังมีอยู่ ฉันได้ดูวรรณกรรมเพิ่มเติมบางส่วน แต่ปัญหานี้ถูกมองข้ามอย่างงดงามทุกที่ ฉันยังสังเกตเห็นว่า Yucel & Demirtas (ในบทความที่ฉันพูดถึงหน้า 798) เขียน:

ชุดข้อมูลที่มีการนับจำนวนทวีคูณเหล่านี้ใช้เพื่อประเมินโมเดล […] โดยใช้แพ็คเกจ R ซึ่งlme4นำไปสู่ ​​10 ชุด (เบต้า, se (เบต้า)), (sigma_b, se (sigma_b)) ซึ่งรวมเข้าด้วยกันโดยใช้ MI ที่รวมกฎที่กำหนดโดย รูบิน

ดูเหมือนว่าพวกเขาใช้ทางลัดบางอย่างเพื่อประเมิน SE ขององค์ประกอบความแปรปรวน (ซึ่งแน่นอนว่าไม่เหมาะสมเนื่องจาก CI นั้นไม่สมดุล) จากนั้นจึงใช้สูตรคลาสสิก


ฉันขอขอบคุณที่คุณกลับมาแชร์ประสบการณ์ของคุณกับปัญหานี้ น่าเสียดายที่ฉันไม่มีทางออกจริง แต่อาจมีข้อเสนอแนะอื่น ๆ เกิดขึ้น
chl

"มองข้ามอย่างสง่างาม" ... นั่นเป็นวลีที่มีประโยชน์สำหรับการทบทวนวรรณกรรมหากเคยได้ยินมา
Matt Parker

3

คำเตือน:ความคิดนี้อาจจะโง่และฉันจะไม่แกล้งเข้าใจความหมายเชิงทฤษฎีของสิ่งที่ฉันเสนอ

" คำแนะนำ " : ทำไมคุณไม่ใส่เพียงชุดข้อมูล 100 (ฉันรู้ว่าคุณทำตามปกติ 5) เรียกใช้ lme4 หรือ nmle รับช่วงความเชื่อมั่น (คุณมี 100 ชุด) จากนั้น:

ใช้ช่วงความกว้างช่วงเล็ก (พูดช่วง / 1,000 หรืออะไรก็ได้) ทดสอบช่วงของค่าที่เป็นไปได้ของแต่ละพารามิเตอร์และรวมเฉพาะช่วงเวลาเล็ก ๆ ที่ปรากฏในอย่างน้อย 95 จาก 100 CIs จากนั้นคุณจะมี "ค่าเฉลี่ย" Monte Carlo ของช่วงความมั่นใจของคุณ

ฉันแน่ใจว่ามีปัญหา (หรือปัญหาทางทฤษฎี) ด้วยวิธีนี้ ตัวอย่างเช่นคุณสามารถจบลงด้วยชุดของช่วงเวลาที่แยกจากกัน สิ่งนี้อาจเป็นหรือไม่เป็นสิ่งเลวร้ายทั้งนี้ขึ้นอยู่กับสาขาของคุณ โปรดทราบว่าสิ่งนี้เป็นไปได้ก็ต่อเมื่อคุณมีช่วงความเชื่อมั่นอย่างน้อยไม่ทับซ้อนกันอย่างน้อยสองช่วงซึ่งจะถูกคั่นด้วยภูมิภาคที่มีพื้นที่ครอบคลุมน้อยกว่า 95%

คุณอาจพิจารณาบางสิ่งที่ใกล้เคียงกับการรักษาข้อมูลที่หายไปแบบเบย์เพื่อให้ได้ภูมิภาคหลังที่น่าเชื่อถือซึ่งแน่นอนว่าจะเกิดขึ้นได้ดีกว่า & สนับสนุนทางทฤษฎีมากกว่าคำแนะนำเฉพาะกิจของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.