1
การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป
สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})(y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xnxnx_{n}(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})xn=f3(x1,⋯,xn−1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})yyy yy=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))=f2(x1,⋯,xn−1)(4)(5)(4)y=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))(5)y=f2(x1,⋯,xn−1) \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} โดยทั่วไปอันไหนดีกว่ากัน? ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn−1n−1n-1 นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?nnn