การใส่หลายแบบและการเลือกแบบจำลอง


21

การใส่หลายแบบนั้นค่อนข้างตรงไปตรงมาเมื่อคุณมีโมเดลเชิงเส้นเบื้องต้นที่คุณต้องการประมาณ อย่างไรก็ตามสิ่งต่าง ๆ ดูเหมือนจะมีเล่ห์เหลี่ยมกว่าเมื่อคุณต้องการเลือกแบบจำลองบางอย่าง (เช่นค้นหาชุดตัวทำนายที่ดีที่สุดจากตัวแปรตัวเลือกที่มีขนาดใหญ่กว่า - ฉันกำลังคิดถึง LASSO และพหุนามเศษส่วนโดยใช้ R)

แนวคิดหนึ่งคือให้พอดีกับโมเดลในข้อมูลต้นฉบับที่มีค่าที่หายไปจากนั้นประเมินโมเดลนี้ใหม่ในชุดข้อมูล MI และรวมการประมาณการตามปกติ อย่างไรก็ตามนี่เป็นปัญหาเนื่องจากคุณคาดหวังความลำเอียง (หรือทำไม MI ในตอนแรก?) ซึ่งอาจนำไปสู่การเลือกแบบจำลอง "ผิด" ตั้งแต่เริ่มต้น

ความคิดอีกอย่างหนึ่งก็คือการทำตามขั้นตอนการเลือกแบบจำลองใด ๆ ที่คุณใช้ในชุดข้อมูล MI แต่ละชุด - แต่คุณจะรวมผลลัพธ์อย่างไรหากรวมตัวแปรชุดต่าง ๆ เข้าด้วยกัน

หนึ่งคิดว่าฉันต้องซ้อนชุดข้อมูล MI และวิเคราะห์เป็นชุดข้อมูลขนาดใหญ่ที่คุณจะใช้เพื่อให้พอดีกับรูปแบบ "ดีที่สุด" เดี่ยวและรวมถึงผลกระทบแบบสุ่มในบัญชีสำหรับความจริงที่คุณใช้มาตรการซ้ำสำหรับ การสังเกตแต่ละครั้ง

เสียงนี้สมเหตุสมผลหรือไม่ หรืออาจจะไร้เดียงสาอย่างไม่น่าเชื่อ? พอยน์เตอร์ใด ๆ ในปัญหานี้ (การเลือกรุ่นที่มีการใส่หลายครั้ง) จะได้รับการชื่นชมอย่างมาก


2
โปรดแก้ไขโพสต์นี้เพื่อเปลี่ยน "การปรับแบบจำลอง" เป็น "การเลือกแบบจำลอง" นอกจากนี้ยังจะเป็นประโยชน์ในการอภิปรายวิธีการที่คุณใช้ ตัวอย่างเช่นหากใช้การเลือกรุ่นตามขั้นตอนโดยยึดตามค่า p จะไม่อนุญาตให้ใช้ข้อมูลที่ซ้อนกันอย่างสมบูรณ์ คุณสามารถวาดตัวอย่างบูตของข้อมูลของคุณรวมถึงข้อมูลที่ขาดหายไปใช้ MI และกระบวนการเลือกรูปแบบที่ตามมาและคำนวณ "p-value" ที่แน่นอนสำหรับรูปแบบที่เลือก
AdamO

ในย่อหน้าที่สองของคุณทำไมคุณคิดว่าวิธีการนั้นผิดพลาดจากจุดที่มีการใส่ร้ายหลายอย่าง? นอกจากนี้คุณใช้ซอฟต์แวร์อะไร
Peter Flom - Reinstate Monica

คำตอบ:


10

มีหลายสิ่งที่คุณสามารถทำได้เพื่อเลือกตัวแปรจากข้อมูลที่มีการเพิ่มจำนวนข้อมูล ดูWood et al (2008) Stat Medเพื่อเปรียบเทียบความเป็นไปได้ต่างๆ

ฉันพบว่ากระบวนการสองขั้นตอนต่อไปนี้มีประโยชน์ในทางปฏิบัติ

  1. ใช้วิธีการเลือกตัวแปรที่ต้องการของคุณเป็นอิสระให้กับแต่ละกล่าวหาชุดข้อมูล คุณจะจบลงด้วยม.รุ่นที่แตกต่างกัน สำหรับตัวแปรแต่ละตัวให้นับจำนวนครั้งที่ปรากฏในโมเดล เลือกตัวแปรเหล่านั้นที่ปรากฏในโมเดลmอย่างน้อยครึ่งหนึ่งม.ม.ม.
  2. ใช้ p-value ของสถิติ Wald หรือการทดสอบอัตราส่วนความน่าจะเป็นซึ่งคำนวณจากชุดข้อมูลทวีคูณถูกนับเป็นเกณฑ์สำหรับการเลือกแบบจำลองขั้นตอนต่อไปม.

ขั้นตอนการเลือกล่วงหน้า 1 ถูกรวมไว้เพื่อลดจำนวนการคำนวณ ดูhttp://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (ส่วน 6.4.2) mice()สำหรับตัวอย่างรหัสของวิธีการแบบสองขั้นตอนในการวิจัยโดยใช้ ใน Stata คุณสามารถดำเนินการขั้นตอนที่ 2 (ตัวแปรทั้งหมด) mim:stepwiseด้วย


Stef โปรดรวมลิงก์ไปยังสิ่งพิมพ์ Stat Med ฉันพยายามทำให้คำตอบของคุณสวยงามขึ้นเช่นกัน
StasK

1
รูทีนที่เสนอนั้นอาจเหมาะสมเมื่อคุณเลือกจากชุดรีจีสเตอร์ที่ระบุไว้ล่วงหน้าเท่านั้น แต่ถ้าฉันเลือกพูดว่าเทรนด์กำลังสอง, B-splines 5 และ 9 นอตและอาจเป็นรถเข็นฉันไม่แน่ใจว่าจะใช้ข้อเสนอนี้อย่างไร
StasK

Stas ขั้นตอนถือว่าเป็นรูปแบบที่ถูกต้อง โดยเฉพาะอย่างยิ่งวิธีการใส่ข้อมูลต้องจับภาพคุณสมบัติทั้งหมดในข้อมูลที่คุณอาจสนใจในภายหลังอย่างเพียงพอ ดังนั้นหากคุณต้องการรวมคำศัพท์กำลังสองหรือ B-splines ลงในการวิเคราะห์ข้อมูลที่สมบูรณ์ของคุณแล้วควรกำหนดรูปแบบการใส่ข้อมูลในลักษณะที่คุณสมบัติเหล่านั้นจะถูกเก็บไว้ในข้อมูลที่ใส่เข้าไป (หมายเหตุ: นี่อาจเป็นเรื่องยากที่จะบรรลุ แต่นั่นเป็นหัวข้อของตัวเอง) ระบุว่ารูปแบบการใส่ผิดถูกระบุไว้อย่างถูกต้องฉันจะบอกว่ามีขั้นตอนการเลือกสองขั้นตอน
Stef van Buuren

ทีนี้ถ้าอย่างนั้นแบบจำลองการใส่ร้ายจะต้องเป็นตัวแบบที่รวยที่สุด ฉันเจอสถานการณ์ที่ไม่ได้ผลเช่นการคาดการณ์ที่สมบูรณ์แบบในแบบจำลองโลจิสติกที่มีพารามิเตอร์มากเกินไป
StasK

ตกลง คุณจะต้องใส่ความในรูปแบบที่สมบูรณ์แบบที่สุด ดังนั้นก่อนอื่นให้กำหนดการวิเคราะห์ที่ซับซ้อนที่สุดที่คุณต้องการและปรับรูปแบบการใส่เข้าไป นี่อาจเป็นเรื่องยากที่จะประสบความสำเร็จในทางปฏิบัติและยากขึ้นเมื่อความซับซ้อนของตัวแบบข้อมูลสมบูรณ์เติบโตขึ้น ไม่มีอาหารกลางวันฟรี การทำนายที่สมบูรณ์แบบในการถดถอยโลจิสติกได้รับการแก้ไขในหลายวิธีและไม่จำเป็นต้องนำเสนอบล็อกที่สำคัญ
Stef van Buuren

4

มันเป็นเรื่องตรงไปตรงมา: คุณสามารถใช้กฎการรวม MI แบบมาตรฐานได้ แต่เอฟเฟกต์ของตัวแปรที่ไม่ได้รับการสนับสนุนในชุดข้อมูลที่ใส่เข้าไป ตัวอย่างเช่นหากไม่ได้เลือกตัวแปรในชุดข้อมูลที่ระบุเฉพาะการประมาณ (รวมถึงความแปรปรวน) เป็นศูนย์และสิ่งนี้จะต้องสะท้อนให้เห็นในการประมาณการที่ใช้เมื่อใช้การใส่หลายครั้ง คุณสามารถพิจารณาการทำ bootstrapping เพื่อสร้างช่วงความเชื่อมั่นเพื่อรวมความไม่แน่นอนในการเลือกรูปแบบได้ดูสิ่งพิมพ์ล่าสุดนี้ซึ่งตอบคำถามทุกข้อ: http://www.sciencedirect.com/science/article/pii/S016794731300073X

ฉันจะหลีกเลี่ยงการใช้วิธีการปฏิบัติเช่นการเลือกตัวแปรถ้ามันถูกเลือกในชุดข้อมูล m / 2 หรือ sth ที่คล้ายกันเพราะการอนุมานไม่ชัดเจนและซับซ้อนกว่าการมองแวบแรก


3

ฉันมีปัญหาเดียวกัน

ตัวเลือกของฉันคือสิ่งที่เรียกว่า โดยทั่วไปจะรวมชุดข้อมูลที่ประเมินไว้ด้วยกันและ adopts แนวคิดของกลุ่มเชือก: ทุกตัวแปรผู้สมัครจะสร้างเมตรตัวแปรดัมมี่ ตัวแปรดัมมี่แต่ละตัวสอดคล้องกับชุดข้อมูลที่กำหนดไว้

จากนั้นทั้งหมดเมตรตัวแปรดัมมี่ถูกจัดกลุ่ม คุณจะทิ้งตัวแปรดัมี่ของตัวแปรตัวเลือกในชุดข้อมูลที่ถูกใส่ข้อมูลทั้งหมดหรือเก็บไว้ในชุดข้อมูลที่ใส่เข้าไปทั้งหมด

ดังนั้นการถดถอยแบบบ่วงบาศจึงสอดคล้องกับชุดข้อมูลทั้งหมดที่ถูกรวมเข้าด้วยกัน

ตรวจสอบกระดาษ :

Chen, Q. & Wang, S. (2013) "การเลือกตัวแปรสำหรับข้อมูลทวีคูณด้วยการประยุกต์ใช้กับการศึกษาการได้รับสารไดออกซิน" สถิติทางการแพทย์, 32: 3646-59

และโปรแกรม R ที่เกี่ยวข้อง


ฉันคิดว่าฉันส่งอีเมลถึงคุณเกี่ยวกับเรื่องนี้เมื่อสองสามปีก่อน :)
DL Dahly

1

ฉันได้พบกับปัญหาที่คล้ายกัน - ฉันมีชุดข้อมูลที่ฉันรู้ตั้งแต่เริ่มต้นว่าฉันต้องการรวมตัวแปรทั้งหมด (ฉันสนใจค่าสัมประสิทธิ์มากกว่าที่คาดการณ์ไว้) แต่ฉันไม่รู้ สำคัญก่อนว่าการโต้ตอบใดควรระบุ

แนวทางของฉันคือการเขียนชุดของแบบจำลองผู้สมัครดำเนินการใส่ข้อมูลหลาย ๆ แบบประเมินโมเดลหลายแบบและเพียงบันทึกและหาค่าเฉลี่ยของ AIC จากแต่ละรุ่น เลือกข้อมูลจำเพาะรุ่นที่มีค่าเฉลี่ยต่ำสุดของ AIC

ฉันคิดเกี่ยวกับการเพิ่มการแก้ไขที่ฉันลงโทษความแปรปรวนระหว่างการใส่ใน AIC ในการไตร่ตรอง

วิธีการนั้นดูเหมือนจะตรงไปตรงมามากพอสำหรับฉัน แต่ฉันคิดค้นมันขึ้นมาเองและฉันก็ไม่ได้เป็นนักสถิติที่มีชื่อเสียง ก่อนที่จะใช้คุณอาจต้องการรอจนกว่าผู้คนจะแก้ไขฉัน (ซึ่งยินดีต้อนรับ!) หรือยกเลิกคำตอบนี้


ขอบคุณสำหรับการตอบกลับ. น่าเสียดายที่สิ่งที่ฉันสนใจจริงๆคือการใช้วิธีการเลือกรุ่นโดยอัตโนมัติ / สำรวจโดยอัตโนมัติซึ่งไม่ได้ให้ยืมตัวเองเพื่อเลือกชุดแบบจำลองที่เหมาะสมก่อน
DL Dahly
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.