ฉันสงสัยว่าใครบางคนสามารถให้ข้อมูลเชิงลึกว่าทำไมการใส่ข้อมูลที่ขาดหายไปนั้นดีกว่าการสร้างแบบจำลองที่แตกต่างกันสำหรับกรณีที่ไม่มีข้อมูล โดยเฉพาะอย่างยิ่งในกรณีของแบบจำลองเชิงเส้น [แบบทั่วไป] (ฉันอาจเห็นในกรณีที่ไม่ใช่แบบเส้นตรงสิ่งต่าง ๆ )
สมมติว่าเรามีโมเดลเชิงเส้นพื้นฐาน:
แต่ชุดข้อมูลของเรามีบันทึกบางส่วนที่ไม่มีในชุดข้อมูลที่ทำนายรูปแบบจะถูกนำมาใช้มีก็จะเป็นกรณีของการขาดหายไปX_3ดูเหมือนจะมีสองวิธีในการดำเนินการ:
หลายรุ่น
เราสามารถแบ่งข้อมูลออกเป็นและไม่ใช่เคสและสร้างโมเดลแยกต่างหากสำหรับแต่ละกรณี หากเราสมมติว่านั้นมีความสัมพันธ์ใกล้ชิดกับโมเดลข้อมูลที่หายไปอาจมีน้ำหนักเกินเพื่อให้ได้คำทำนายที่ดีที่สุดสองตัวทำนาย นอกจากนี้หากกรณีข้อมูลที่ขาดหายไปนั้นแตกต่างกันเล็กน้อย (เนื่องจากกลไกข้อมูลหายไป) ก็สามารถรวมความแตกต่างนั้นได้ ที่ด้านล่างทั้งสองรุ่นมีการปรับให้เหมาะสมกับข้อมูลเพียงบางส่วนเท่านั้นและไม่ได้ "ช่วยเหลือ" ซึ่งกันและกันดังนั้นชุดข้อมูลอาจไม่ดีกับชุดข้อมูลที่มี จำกัด
การใส่ร้าย
การถดถอยการใส่หลายครั้งก่อนจะเติมในโดยการสร้างแบบจำลองตามและแล้วสุ่มตัวอย่างแบบสุ่มเพื่อรักษาสัญญาณรบกวนในข้อมูลที่ใส่เข้าไป เนื่องจากนี่เป็นสองรุ่นอีกต่อไปสิ่งนี้จะไม่จบลงด้วยวิธีเดียวกับวิธีการหลายแบบข้างต้นหรือไม่ หากสามารถทำได้ดีกว่า - กำไรมาจากไหน เป็นความเหมาะสมของทำกับทั้งชุดหรือไม่
แก้ไข:
ในขณะที่คำตอบของ Steffan อธิบายไว้ว่าการปรับแบบจำลองของกรณีที่สมบูรณ์บนข้อมูลที่มีการใส่ข้อมูลจะมีประสิทธิภาพสูงกว่าข้อมูลที่สมบูรณ์และดูเหมือนว่าการย้อนกลับเป็นความจริง แต่ก็ยังมีความเข้าใจผิดเกี่ยวกับการพยากรณ์ข้อมูลที่หายไป
ถ้าฉันมีโมเดลด้านบนติดตั้งได้อย่างสมบูรณ์แบบโดยทั่วไปจะเป็นตัวแบบพยากรณ์ที่แย่มากถ้าฉันใส่ศูนย์ลงไปเมื่อทำนาย ลองนึกภาพเช่นว่าแล้วจะไม่ได้ผลอย่างสมบูรณ์ ( ) เมื่อเป็นปัจจุบัน แต่ก็ยังจะเป็นประโยชน์ในกรณีที่ไม่มีของX_3
คำถามสำคัญที่ฉันไม่เข้าใจคือ: จะดีกว่าหรือไม่หากจะสร้างสองแบบจำลองหนึ่งอันใช้และอีกหนึ่งใช้หรือดีกว่าที่จะสร้างแบบจำลอง (เต็ม) และใช้เดี่ยว การใส่ความในชุดข้อมูลการคาดการณ์ - หรือเป็นสิ่งเดียวกัน
การนำคำตอบของ Steffan มาปรากฏว่าเป็นการดีกว่าที่จะสร้างแบบจำลองกรณีสมบูรณ์ในชุดฝึกอบรมที่มีการกำหนดและในทางกลับกันควรสร้างแบบจำลองข้อมูลที่ขาดหายไปในชุดข้อมูลแบบเต็มด้วยทิ้ง ขั้นตอนที่สองนี้แตกต่างจากการใช้แบบจำลองในข้อมูลการพยากรณ์หรือไม่?