ประโยชน์ของการใส่ความมากกว่าการสร้างแบบจำลองหลายรูปแบบในการถดถอยคืออะไร?


10

ฉันสงสัยว่าใครบางคนสามารถให้ข้อมูลเชิงลึกว่าทำไมการใส่ข้อมูลที่ขาดหายไปนั้นดีกว่าการสร้างแบบจำลองที่แตกต่างกันสำหรับกรณีที่ไม่มีข้อมูล โดยเฉพาะอย่างยิ่งในกรณีของแบบจำลองเชิงเส้น [แบบทั่วไป] (ฉันอาจเห็นในกรณีที่ไม่ใช่แบบเส้นตรงสิ่งต่าง ๆ )

สมมติว่าเรามีโมเดลเชิงเส้นพื้นฐาน:

Y=β1X1+β2X2+β3X3+ϵ

แต่ชุดข้อมูลของเรามีบันทึกบางส่วนที่ไม่มีในชุดข้อมูลที่ทำนายรูปแบบจะถูกนำมาใช้มีก็จะเป็นกรณีของการขาดหายไปX_3ดูเหมือนจะมีสองวิธีในการดำเนินการ:X3X3

หลายรุ่น

เราสามารถแบ่งข้อมูลออกเป็นและไม่ใช่เคสและสร้างโมเดลแยกต่างหากสำหรับแต่ละกรณี หากเราสมมติว่านั้นมีความสัมพันธ์ใกล้ชิดกับโมเดลข้อมูลที่หายไปอาจมีน้ำหนักเกินเพื่อให้ได้คำทำนายที่ดีที่สุดสองตัวทำนาย นอกจากนี้หากกรณีข้อมูลที่ขาดหายไปนั้นแตกต่างกันเล็กน้อย (เนื่องจากกลไกข้อมูลหายไป) ก็สามารถรวมความแตกต่างนั้นได้ ที่ด้านล่างทั้งสองรุ่นมีการปรับให้เหมาะสมกับข้อมูลเพียงบางส่วนเท่านั้นและไม่ได้ "ช่วยเหลือ" ซึ่งกันและกันดังนั้นชุดข้อมูลอาจไม่ดีกับชุดข้อมูลที่มี จำกัดX3X3X3X2X2

การใส่ร้าย

การถดถอยการใส่หลายครั้งก่อนจะเติมในโดยการสร้างแบบจำลองตามและแล้วสุ่มตัวอย่างแบบสุ่มเพื่อรักษาสัญญาณรบกวนในข้อมูลที่ใส่เข้าไป เนื่องจากนี่เป็นสองรุ่นอีกต่อไปสิ่งนี้จะไม่จบลงด้วยวิธีเดียวกับวิธีการหลายแบบข้างต้นหรือไม่ หากสามารถทำได้ดีกว่า - กำไรมาจากไหน เป็นความเหมาะสมของทำกับทั้งชุดหรือไม่X3X1X2X1

แก้ไข:

ในขณะที่คำตอบของ Steffan อธิบายไว้ว่าการปรับแบบจำลองของกรณีที่สมบูรณ์บนข้อมูลที่มีการใส่ข้อมูลจะมีประสิทธิภาพสูงกว่าข้อมูลที่สมบูรณ์และดูเหมือนว่าการย้อนกลับเป็นความจริง แต่ก็ยังมีความเข้าใจผิดเกี่ยวกับการพยากรณ์ข้อมูลที่หายไป

ถ้าฉันมีโมเดลด้านบนติดตั้งได้อย่างสมบูรณ์แบบโดยทั่วไปจะเป็นตัวแบบพยากรณ์ที่แย่มากถ้าฉันใส่ศูนย์ลงไปเมื่อทำนาย ลองนึกภาพเช่นว่าแล้วจะไม่ได้ผลอย่างสมบูรณ์ ( ) เมื่อเป็นปัจจุบัน แต่ก็ยังจะเป็นประโยชน์ในกรณีที่ไม่มีของX_3X2=X3+ηX2β2=0X3X3

คำถามสำคัญที่ฉันไม่เข้าใจคือ: จะดีกว่าหรือไม่หากจะสร้างสองแบบจำลองหนึ่งอันใช้และอีกหนึ่งใช้หรือดีกว่าที่จะสร้างแบบจำลอง (เต็ม) และใช้เดี่ยว การใส่ความในชุดข้อมูลการคาดการณ์ - หรือเป็นสิ่งเดียวกัน(X1,X2)(X1,X2,X3)

การนำคำตอบของ Steffan มาปรากฏว่าเป็นการดีกว่าที่จะสร้างแบบจำลองกรณีสมบูรณ์ในชุดฝึกอบรมที่มีการกำหนดและในทางกลับกันควรสร้างแบบจำลองข้อมูลที่ขาดหายไปในชุดข้อมูลแบบเต็มด้วยทิ้ง ขั้นตอนที่สองนี้แตกต่างจากการใช้แบบจำลองในข้อมูลการพยากรณ์หรือไม่?X3

คำตอบ:


4

ฉันคิดว่ากุญแจที่นี่คือการทำความเข้าใจกลไกข้อมูลที่หายไป; หรืออย่างน้อยก็ตัดสินบางส่วน การสร้างแบบจำลองที่แยกต่างหากนั้นคล้ายกับการรักษากลุ่มที่หายไปและไม่หายเป็นตัวอย่างที่สุ่ม หากการหายตัวไปของ X3 เกี่ยวข้องกับ X1 หรือ X2 หรือตัวแปรที่ไม่มีการตรวจสอบอื่น ๆ การประมาณค่าของคุณอาจจะมีอคติในแต่ละรุ่น ทำไมไม่ใช้การใส่หลายแบบในชุดข้อมูลการพัฒนาและใช้สัมประสิทธิ์แบบรวมบนชุดการทำนายที่มีการคูณแบบทวีคูณ เฉลี่ยในการทำนายและคุณควรจะดี


แต่หากการหายไปนั้นเกี่ยวข้องกับ X1 หรือ X2 แน่นอนว่ามันเป็นเรื่องดีที่มีสองรุ่นแยกกัน - เนื่องจากพวกเขาจะรวมข้อมูลนั้นไว้ กล่าวคือเมื่อในอนาคตฉันได้รับ X3 ที่หายไปฉันจะรู้ว่ามีอคติในทิศทางที่ถูกต้อง
Korone

3

ฉันคิดว่าคุณมีความสนใจที่จะได้รับค่าสัมประสิทธิ์การถดถอยแบบไม่เอนเอียง การวิเคราะห์กรณีที่สมบูรณ์ให้ค่าประมาณที่ไม่เอนเอียงของสัมประสิทธิ์การถดถอยของคุณโดยที่ความน่าจะเป็นที่ X3 หายไปนั้นไม่ได้ขึ้นอยู่กับ Y นี่ถือได้แม้ว่าความน่าจะเป็นที่หายไปนั้นขึ้นอยู่กับ X1 หรือ X2 และสำหรับการวิเคราะห์การถดถอย

แน่นอนการประมาณการอาจไม่มีประสิทธิภาพหากสัดส่วนของกรณีที่สมบูรณ์มีขนาดเล็ก ในกรณีนี้คุณสามารถใช้การใส่หลาย ๆ ครั้งของ X3 ที่ให้ X2, X1 และ Y เพื่อเพิ่มความแม่นยำ ดูสีขาวและคาร์ (2010) สถิติ Medสำหรับรายละเอียด


อา, การใส่ความคิดทั้งหมดเกี่ยวกับการทำให้สัมประสิทธิ์ถูกต้องหรือไม่? สัมประสิทธิ์ตัวเองไม่ได้สนใจฉัน - ฉันแค่ต้องการเพิ่มพลังการทำนายของฉันในข้อมูลใหม่ (ซึ่งอาจหายไป)
Korone

1
ไม่เป็นไร. เพื่อให้ได้พลังงานการทำนายสูงสุดคุณต้องมีการประมาณค่าสัมประสิทธิ์ของแบบจำลองที่แม่นยำและไม่เอนเอียง
Stef van Buuren

หากฉันใช้กรณีที่สมบูรณ์เท่านั้นฉันจะไม่สามารถใช้แบบจำลองนั้นเพื่อการคาดการณ์เมื่อมีข้อมูลขาดหายไปเพราะค่าสัมประสิทธิ์โดยทั่วไปจะไม่ถูกต้อง (ตัวอย่างเช่นหากมีความสัมพันธ์ระหว่าง X2 และ X3) ฉันจึงต้องใส่ร้าย X3 เมื่อทำการทำนายหรือสร้างแบบจำลองที่สองในเวลาเพียง X1 & X2 คำถามคือถ้าสิ่งนี้ส่งผลในการคาดการณ์ที่แตกต่างกันและดีกว่า?
Korone

อ่าฉันคิดว่าฉันเข้าใจประเด็นหนึ่งที่คุณกำลังทำอยู่: ถ้าฉันพอดีกับแบบจำลองสำหรับการทำนายกรณีที่สมบูรณ์โดยใช้การใส่ความคิดจากนั้นจะปรับปรุงการคาดการณ์กรณีที่สมบูรณ์แล้วเทียบกับกรณีแข่งขัน คำถามที่เหลือคือสิ่งที่ดีที่สุดสำหรับกรณีที่ไม่สมบูรณ์?
Korone

สมมติว่า beta_1 = beta_2 = 0 และ beta_3 = 1 การใช้เพียง X1 และ X2 จะทำนายค่าคงที่ในขณะที่การคาดการณ์โดยใช้ X3 จะอธิบายความแปรปรวนของ Y บางส่วนและทำให้เกิดข้อผิดพลาดที่เหลือน้อยลง ดังนั้นเวอร์ชันที่คาดการณ์ไว้จะทำให้การคาดการณ์ดีขึ้น
Stef van Buuren

0

การศึกษาหนึ่งจาก Harvard แนะนำให้ใส่หลาย ๆ ครั้งด้วยการพยากรณ์ห้าครั้งของข้อมูลที่หายไป (นี่คือการอ้างอิง, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ) ถึงกระนั้นฉันก็จำความเห็นได้ว่าโมเดลการใส่ร้ายอาจยังคงไม่ครอบคลุมช่วงเวลาสำหรับพารามิเตอร์โมเดลที่ไม่รวมค่าพื้นฐานจริง!

โดยที่ในใจมันจะดีที่สุดถ้าใช้แบบจำลองไร้เดียงสาแบบง่าย ๆ ห้าแบบสำหรับค่าที่หายไป (สมมติว่าไม่หายไปโดยการสุ่มในการสนทนาปัจจุบัน) ที่ให้ค่าการกระจายที่ดีดังนั้นอย่างน้อยช่วงเวลาอาจครอบคลุมพารามิเตอร์จริง .

ประสบการณ์ของฉันในทฤษฎีการเก็บตัวอย่างคือทรัพยากรจำนวนมากมักถูกใช้ในการย่อยตัวอย่างประชากรที่ไม่ตอบสนองซึ่งบางครั้งดูเหมือนจะแตกต่างจากประชากรตอบสนองมาก ดังนั้นฉันจึงขอแนะนำการฝึกที่คล้ายกันในการถดถอยค่าที่ขาดหายไปอย่างน้อยหนึ่งครั้งในพื้นที่เฉพาะของแอปพลิเคชัน ความสัมพันธ์ที่ไม่ได้รับการกู้คืนในการสำรวจข้อมูลที่หายไปอาจเป็นค่าในอดีตในการสร้างแบบจำลองการพยากรณ์ข้อมูลที่หายไปที่ดีขึ้นในอนาคต

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.