การใส่หลายครั้งสำหรับตัวแปรผลลัพธ์


17

ฉันมีชุดข้อมูลเกี่ยวกับการทดลองทางการเกษตร ตัวแปรตอบกลับของฉันคืออัตราส่วนการตอบสนอง: บันทึก (การรักษา / การควบคุม) ฉันสนใจในสิ่งที่เป็นสื่อกลางความแตกต่างดังนั้นฉันจึงเรียกใช้ RE-meta-regressions (ไม่ถ่วงน้ำหนักเนื่องจากดูเหมือนชัดเจนว่าขนาดของเอฟเฟกต์นั้นไม่มีความสัมพันธ์กับความแปรปรวนของการประมาณ)

การศึกษาแต่ละครั้งจะรายงานถึงผลผลิตของข้าว, ชีวมวลหรือทั้งสองอย่าง ฉันไม่สามารถแยกแยะผลผลิตข้าวจากการศึกษาที่รายงานผลผลิตชีวมวลเพียงอย่างเดียวเพราะไม่ใช่พืชที่ศึกษาทั้งหมดมีประโยชน์สำหรับเมล็ดพืช (เช่นอ้อยรวมอยู่ด้วย) แต่พืชแต่ละชนิดที่ผลิตธัญพืชก็มีชีวมวลด้วยเช่นกัน

สำหรับเพื่อนร่วมงานที่ขาดหายไปฉันใช้การใส่คำซ้ำซ้ำ (ตามบทตำราของ Andrew Gelman) ดูเหมือนว่าจะให้ผลลัพธ์ที่สมเหตุสมผลและโดยทั่วไปกระบวนการทั้งหมดนั้นใช้งานง่าย โดยทั่วไปฉันคาดการณ์ค่าที่หายไปและใช้ค่าที่คาดการณ์เหล่านั้นเพื่อคาดการณ์ค่าที่หายไปและวนซ้ำแต่ละตัวแปรจนกว่าแต่ละตัวแปรจะมาบรรจบกัน (ในการแจกแจง)

มีเหตุผลใดบ้างที่ฉันไม่สามารถใช้กระบวนการเดียวกันเพื่อใส่ข้อมูลผลลัพธ์ที่ขาดหายไป ฉันอาจจะสร้างแบบจำลองการให้ข้อมูลที่ค่อนข้างมีความหมายสำหรับอัตราส่วนการตอบสนองของสิ่งมีชีวิตต่อหน่วยพื้นที่โดยพิจารณาจากอัตราส่วนการตอบสนองของธัญพืชชนิดของพืชและ covariates อื่น ๆ ที่ฉันมี จากนั้นฉันจะเฉลี่ยค่าสัมประสิทธิ์และ VCV ของและเพิ่มการแก้ไข MI ตามการปฏิบัติมาตรฐาน

แต่สัมประสิทธิ์เหล่านี้วัดได้อย่างไรเมื่อผลลัพธ์ของตัวเองถูกกำหนดไว้? การตีความสัมประสิทธิ์นั้นแตกต่างจาก MI มาตรฐานสำหรับ covariates หรือไม่? เมื่อคิดถึงเรื่องนี้ฉันไม่สามารถโน้มน้าวตัวเองได้ว่าสิ่งนี้ไม่ได้ผล แต่ฉันก็ไม่แน่ใจ ยินดีต้อนรับความคิดและข้อเสนอแนะสำหรับการอ่านเนื้อหา


ฉันไม่ได้รับคำตอบ แต่มีคำถามหนึ่งข้อและโน้ตสองข้อ: 1) บันทึกของอัตราส่วนคือแน่นอนความแตกต่างของบันทึก ดังนั้น DV ของคุณเทียบเท่ากับบันทึก (การรักษา) - บันทึก (ควบคุม) 2) ตำราของ Gelman ที่คุณดูอยู่
Peter Flom - Reinstate Monica

ใช่ DV นั้นเทียบเท่ากับบันทึก (การรักษา) -log (ควบคุม) ฉันกำลังพิจารณาความซ้ำซ้อนของการถดถอยในบทที่ (ไม่ใช่เทคนิค) เกี่ยวกับข้อมูลที่หายไปที่ Gelman ได้โพสต์ออนไลน์: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user

ฉันได้รับการบอกว่าการใส่ความหมายผลลัพธ์นำไปสู่ข้อผิดพลาดของ Monte Carlo จะพยายามหาลิงค์ในภายหลัง อย่าลืมว่าคุณต้องตรวจสอบให้แน่ใจว่าได้รวมผลลัพธ์ในโมเดลการใส่ข้อมูลสำหรับผู้ร่วมทุน
DL Dahly

คำตอบ:


19

ตามที่คุณสงสัยว่าเป็นสิ่งที่ถูกต้องที่จะใช้การใส่หลายแบบสำหรับการวัดผลลัพธ์ มีหลายกรณีที่สิ่งนี้มีประโยชน์ แต่ก็มีความเสี่ยงเช่นกัน ฉันพิจารณาสถานการณ์ที่ผู้มีสภาพแปรปรวนทั้งหมดเสร็จสมบูรณ์และผลลัพธ์ไม่สมบูรณ์

หากรูปแบบการใส่ข้อมูลถูกต้องเราจะได้รับการอ้างถึงที่ถูกต้องในการประมาณค่าพารามิเตอร์จากข้อมูลที่ใส่เข้าไป การอนุมานที่ได้รับจากกรณีที่สมบูรณ์อาจจริง ๆ แล้วผิดถ้าความหายไปเกี่ยวข้องกับผลลัพธ์หลังจากปรับเงื่อนไขในตัวทำนายนั่นคือภายใต้ MNAR ดังนั้นการใส่เข้าไปจึงมีประโยชน์ถ้าเรารู้ (หรือสงสัย) ว่าข้อมูลนั้นเป็น MNAR

ภายใต้ MAR โดยทั่วไปจะไม่มีประโยชน์ในการใส่ร้ายผลลัพธ์และสำหรับจำนวนการใส่ข้อมูลที่น้อยผลลัพธ์อาจจะค่อนข้างแปรปรวนมากขึ้นเนื่องจากข้อผิดพลาดในการจำลอง มีข้อยกเว้นที่สำคัญสำหรับเรื่องนี้ หากเราเข้าถึงตัวแปรเสริมที่สมบูรณ์ซึ่งไม่ได้เป็นส่วนหนึ่งของแบบจำลองและมีความสัมพันธ์กับผลลัพธ์อย่างมากการใส่ความคิดอาจมีประสิทธิภาพมากกว่าการวิเคราะห์กรณีที่สมบูรณ์ทำให้มีการประมาณการที่แม่นยำมากขึ้น สถานการณ์ทั่วไปที่เกิดขึ้นคือถ้าเรามีการวัดผลลัพธ์ที่ถูกสำหรับทุกคนและการวัดที่มีราคาแพงสำหรับชุดย่อย

ในชุดข้อมูลจำนวนมากข้อมูลที่ขาดหายไปก็เกิดขึ้นในตัวแปรอิสระเช่นกัน ในกรณีเหล่านี้เราต้องกำหนดตัวแปรผลลัพธ์เนื่องจากจำเป็นต้องใช้เวอร์ชันที่กำหนดไว้เพื่อกำหนดตัวแปรอิสระ


ขอบคุณสิ่งนี้สอดคล้องกับสัญชาตญาณของฉัน แต่คุณอาจแบ่งปันลิงก์ไปยังการศึกษาที่ได้รับการตีพิมพ์อย่างดีซึ่งกำหนดตัวแปรตามหรือไม่ หนึ่งในเหตุผลหลักที่ฉันต้องการกำหนดมาตรการผลลัพธ์คือการเพิ่มขนาดตัวอย่าง (จากประมาณ 250 เป็นประมาณ 450) เพื่ออำนวยความสะดวกในการโต้ตอบของผลิตภัณฑ์ในรูปแบบกึ่งพารามิเตอร์เมตริกซ์ใน GAM ที่มีข้อกำหนด df สูงมาก (ก่อนที่พวกเขาจะได้รับ ถูกลงโทษลด edf) MAR มีความสมเหตุสมผลในกรณีของฉัน
generic_user

1
มันได้รับการฝึกฝนอย่างกว้างขวางสำหรับ ANOVA เพื่อให้ได้การออกแบบที่สมดุล ดูการแนะนำของ RJA Little, การถดถอยด้วย X's ที่หายไป, JASA 1992 ฉันคิดว่าคุณรู้ว่าการเพิ่มขนาดตัวอย่างด้วยวิธีนี้ไม่ได้ช่วยให้คุณได้รับการประมาณการที่แม่นยำยิ่งขึ้น สำหรับกรณีของตัวแปรเสริมให้อ่านหัวข้อเกี่ยวกับประสิทธิภาพขั้นสูงใน DB Rubin, การใส่ข้อมูลหลายครั้งหลังจากอายุ 18 ปี, JASA 1996
Stef van Buuren

1
"ภายใต้ MAR ปกติจะไม่มีประโยชน์ในการใส่ร้ายผลลัพธ์" - ฉันเคยเห็นสิ่งนี้มาก่อน แต่ฉันไม่มีการอ้างอิงใด ๆ - คุณสามารถให้หนึ่งโปรดได้หรือไม่
Robert Long

ฉันคิดว่าคุณสามารถอ้างอิง Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282สำหรับสิ่งนั้น แต่โปรดทราบข้อยกเว้น
Stef van Buuren

1
@StefvanBuuren - คำตอบที่เป็นประโยชน์สำหรับส่วนใหญ่ แต่ความเข้าใจของฉันคือ "ถ้าเรารู้ (หรือสงสัย) ว่าข้อมูลเป็น MNAR" จากนั้นการใส่ความไม่สามารถแก้ปัญหาของเรามากกว่าการวิเคราะห์กรณีที่สมบูรณ์สามารถ ดูเหมือนว่าจะอยู่ในหมวดหมู่ "ไม่มีอาหารกลางวันฟรี"
rolando2

2

การสรุปข้อมูลผลลัพธ์เป็นเรื่องธรรมดามากและนำไปสู่การอนุมานที่ถูกต้องเมื่อบัญชีสำหรับข้อผิดพลาดแบบสุ่ม

ดูเหมือนว่าสิ่งที่คุณกำลังทำคือการใส่ความคิดเดียวโดยการใส่ค่าที่ขาดหายไปด้วยค่าเฉลี่ยตามเงื่อนไขภายใต้การวิเคราะห์กรณีที่สมบูรณ์ สิ่งที่คุณควรทำคือการใส่ความหลายอย่างซึ่งสำหรับ covariates ต่อเนื่องบัญชีสำหรับข้อผิดพลาดแบบสุ่มที่คุณจะสังเกตเห็นว่าคุณได้วัดค่าที่หายไปเหล่านี้ย้อนหลัง อัลกอริทึม EM ทำงานในลักษณะที่คล้ายกันโดยเฉลี่ยในช่วงของผลลัพธ์ที่สังเกตได้

การใส่ร้ายครั้งเดียวให้การประมาณค่าที่ถูกต้องของพารามิเตอร์โมเดลเมื่อไม่มีความสัมพันธ์แปรปรวนแบบเฉลี่ย แต่ให้การประมาณการข้อผิดพลาดมาตรฐานซึ่งเอนเอียงไปที่ศูนย์อัตราการผิดพลาดประเภท I ที่พองตัว นี่เป็นเพราะคุณ "มองโลกในแง่ดี" เกี่ยวกับขอบเขตของข้อผิดพลาดที่คุณจะสังเกตเห็นหากคุณวัดปัจจัยเหล่านี้

การใส่ข้อมูลหลายครั้งเป็นกระบวนการของการสร้างข้อผิดพลาดซ้ำ ๆ สำหรับการใส่ความหมายแบบมีเงื่อนไขเพื่อให้ผ่านการใส่ภาพแบบจำลอง 7 หรือ 8 คุณสามารถรวมแบบจำลองและข้อผิดพลาดของพวกเขาเพื่อรับการประมาณค่าพารามิเตอร์รุ่นที่ถูกต้องและข้อผิดพลาดมาตรฐาน หากคุณมีความแปรปรวนร่วมร่วมและผลลัพธ์ที่ขาดหายไปจะมีซอฟต์แวร์ใน SAS, STATA และ R ที่เรียกว่าการใส่ข้อมูลหลายครั้งผ่านสมการที่ถูกล่ามโซ่โดยที่ชุดข้อมูล "เสร็จสมบูรณ์" (ชุดข้อมูลที่มีค่าที่ใส่เข้าไป พารามิเตอร์ที่ประเมินจากชุดข้อมูลที่สมบูรณ์แต่ละชุดและการประเมินพารามิเตอร์และข้อผิดพลาดมาตรฐานรวมกันโดยใช้การสร้างทางคณิตศาสตร์ที่ถูกต้อง (รายละเอียดในกระดาษ Van Buuren)

ความแตกต่างเล็กน้อยระหว่างกระบวนการใน MI และกระบวนการที่คุณอธิบายคือคุณไม่ได้คำนึงถึงความจริงที่ว่าการประเมินการแจกแจงแบบมีเงื่อนไขของผลลัพธ์โดยใช้ข้อมูลที่มีการระบุจะขึ้นอยู่กับลำดับที่คุณกำหนดปัจจัยบางอย่าง คุณควรจะประมาณการกระจายแบบมีเงื่อนไขของการแปรสภาพ covariates ที่หายไปกับผลลัพธ์ใน MI มิฉะนั้นคุณจะได้รับการประมาณค่าพารามิเตอร์แบบเอนเอียง


ขอบคุณ ก่อนอื่นฉันกำลังเขียนโปรแกรมทุกอย่างตั้งแต่เริ่มต้นใน R ไม่ใช่การใช้ MICE หรือ MI ประการที่สองฉันกำลังโต้แย้งด้วยการแจกแจงการทำนาย (จำลอง) ไม่ใช่แค่ความคาดหวังตามเงื่อนไข นั่นคือสิ่งที่คุณกำลังพูดถึงในวรรคที่สอง? ถ้าไม่ฉันขอขอบคุณการชี้แจง นอกจากนี้คุณหมายถึงกระดาษ Royston ใด? สำหรับจุดสุดท้ายของคุณคุณกำลังพูดอะไรที่ซับซ้อนกว่า "คุณควรใส่ตัวแปรตามของคุณในรูปแบบการใส่ร้าย"? ถ้าเป็นเช่นนั้นฉันจะต้องขอขอบคุณอย่างชัดเจน
generic_user

สุดท้าย - ฉันไม่ได้ใส่ร้าย ฉันใส่ข้อมูลในรุ่น 30 พอดีและใช้ V_b = W + (1 + 1 / m) สูตร B จาก Rubin
generic_user

Royston paper เชื่อมโยงหลายมิติ จริง ๆ แล้วฉันต้องการเชื่อมโยง Van Buuren ซึ่งเป็นผู้ดำเนินการโปรแกรมใน R และรวมถึงรายละเอียดการคำนวณ: doc.utwente.nl/78938 MICE / MI เป็นกระบวนการ หากคุณกำลังใส่รหัสตามรหัสที่ปลูกเองคุณควรจะละเอียดรายละเอียดให้ดีขึ้น หมายถึงเงื่อนไข = ค่าที่คาดการณ์หากรูปแบบที่ถูกต้อง (หรือประมาณนั้นเป็นสมมติฐานที่จำเป็น) มันซับซ้อนกว่า "เพิ่มผลลัพธ์" นั่นคือคุณกำลังใส่ความมากกว่ารูปแบบที่หายไปหลายรูปแบบ (อย่างน้อย 3 รายการ, covariate / result / results / หายไปร่วมกัน)
AdamO

หากคุณกำลังใส่ค่าที่คาดการณ์ไว้โดยลำพัง 30 ครั้งคุณควรได้ผลลัพธ์เดียวกัน 30 ครั้ง คุณประเมินข้อผิดพลาดอย่างไร
AdamO

fit,imp
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.