การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป


9

สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

โดยทั่วไปอันไหนดีกว่ากัน?

ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn1

นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?n


การประมาณค่าจริงเทียบกับการประมาณกับ - คุณตัดสินใจ :)
ปริญญาเอก

มันง่ายจริงๆเหรอ?
Xiaowen Li

คำตอบอาจจะขึ้นอยู่กับว่า ข้อมูลหายไปมากแค่ไหน? คุณมีข้อมูลโดยรวมเท่าใด คุณมีผู้ทำนายกี่คน?
Joel W.

คำตอบ:


6

+1 ฉันคิดว่านี่เป็นคำถามที่น่าสนใจและชัดเจนมาก อย่างไรก็ตามข้อมูลเพิ่มเติมจะช่วยให้เราคิดผ่านสถานการณ์นี้

ตัวอย่างเช่นความสัมพันธ์ระหว่างและคืออะไร? มันค่อนข้างจะเป็นไปได้ว่ามีไม่ได้เป็นหนึ่งในกรณีที่การถดถอยข้อเสนอไม่มีความได้เปรียบเมื่อเทียบกับการถดถอย(2)(ที่จริงแล้วมันเป็นข้อเสียเล็กน้อยมากในแง่ที่ว่าข้อผิดพลาดมาตรฐานจะมีขนาดใหญ่กว่าเล็กน้อยและดังนั้น betas อาจจะเพิ่มขึ้นเล็กน้อยโดยเฉลี่ยจากค่าจริงของพวกเขา) หากมีการทำแผนที่ฟังก์ชั่นถึง , จากนั้นตามคำนิยามมีข้อมูลจริงและการถดถอยจะดีขึ้นในสถานการณ์เริ่มต้น xny(1)(2)xny(1)

ถัดไปธรรมชาติของความสัมพันธ์ระหว่างและคืออะไร? มีไหม ตัวอย่างเช่นเมื่อเราทำการทดลอง (โดยปกติ) เราพยายามกำหนดจำนวนหน่วยการศึกษาให้เท่ากันให้กับการรวมกันของค่าของตัวแปรอธิบาย (วิธีนี้ใช้ผลคูณของผลิตภัณฑ์คาร์ทีเซียนในระดับของ IV และเรียกว่าการออกแบบ 'ฟูแฟคทอเรียล' นอกจากนี้ยังมีกรณีที่ระดับตั้งใจสับสนเพื่อบันทึกข้อมูลเรียกว่าการออกแบบแฟคทอเรียลเศษส่วน ) หาก ตัวแปรอธิบายเป็นฉากการถดถอยที่สามของคุณจะให้ผลผลิตอย่างตรง 0. บนมืออื่น ๆ ในการศึกษาเชิงสังเกตตัวแปรจะสวยมากเสมอ(x1,,xn1)xnมีความสัมพันธ์ แข็งแรงความสัมพันธ์ที่ข้อมูลน้อยอยู่ในx_nข้อเท็จจริงเหล่านี้จะปรับญาติของการถดถอยและการถดถอย(2) xn(1)(2)

อย่างไรก็ตาม (น่าเสียดายที่บางที) มันซับซ้อนกว่านั้น หนึ่งในแนวคิดที่สำคัญ แต่ยากสำหรับการถดถอยแบบหลายจุดคือความสัมพันธ์หลายด้าน หากคุณพยายามประเมินการถดถอยคุณจะพบว่าคุณมีความหลากหลายทางสีที่สมบูรณ์แบบและซอฟต์แวร์ของคุณจะบอกคุณว่าเมทริกซ์การออกแบบนั้นไม่สามารถย้อนกลับได้ ดังนั้นในขณะที่การถดถอยอาจมีข้อได้เปรียบเมื่อเทียบกับการถดถอยแต่การถดถอยจะไม่ดีขึ้น (4)(1)(2)(4)

คำถามที่น่าสนใจมากขึ้น (และคนที่คุณกำลังถาม) เป็นสิ่งที่ถ้าคุณใช้การถดถอยที่จะทำให้การคาดการณ์เกี่ยวกับใช้ประมาณค่าผลลัพธ์จากการคาดการณ์ของการถดถอย ? (นั่นคือคุณไม่ได้ประมาณการถดถอยคุณกำลังเอาท์พุทจากสมการทำนายที่ประมาณไว้ในการถดถอยเข้ากับโมเดลการทำนาย ) สิ่งที่คุณไม่ได้รับจริง ๆ ข้อมูลที่นี่ ข้อมูลใดก็ตามที่อยู่ในค่าตัวทำนายแรกสำหรับการสังเกตแต่ละครั้งจะถูกใช้อย่างเหมาะสมที่สุดโดยการถดถอย(1)yxn(3)(4)(3)(4)n1(2)ดังนั้นจึงไม่มีกำไร

ดังนั้นคำตอบสำหรับคำถามแรกของคุณก็คือคุณอาจใช้การถดถอยเพื่อทำนายการทำงานที่ไม่จำเป็น โปรดทราบว่าฉันได้กล่าวถึงเรื่องนี้ในลักษณะที่เป็นนามธรรมอย่างเป็นธรรมมากกว่าที่จะกล่าวถึงสถานการณ์ที่เป็นรูปธรรมที่คุณอธิบายซึ่งมีคนส่งชุดข้อมูลสองชุดให้คุณ (ฉันไม่สามารถจินตนาการสิ่งนี้ได้) แต่ฉันคิดว่าคำถามนี้เป็นความพยายามที่จะเข้าใจสิ่งที่ค่อนข้างลึกเกี่ยวกับลักษณะของการถดถอย แม้ว่าสิ่งที่เกิดขึ้นในบางโอกาสคือว่าการสังเกตการณ์บางอย่างมีค่าในตัวทำนายทั้งหมดและการสังเกตอื่น ๆ (ภายในชุดข้อมูลเดียวกัน) จะหายไปบางค่าในตัวทำนายบางตัว เรื่องนี้เป็นเรื่องธรรมดาโดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับข้อมูลระยะยาว ในสถานการณ์เช่นนี้คุณต้องการตรวจสอบการใส่หลายครั้ง (2)


ขอบคุณ Gung สำหรับคำตอบโดยละเอียดและคุณช่วยในการแก้ไขข้อความของคำถามของฉัน ฉันจะตอบกลับเมื่อฉันตีความคำตอบของคุณอย่างเต็มที่ สำหรับข้อมูลของคุณนี่คือการศึกษาเชิงสังเกตเกี่ยวกับราคาของหลอดไฟ รวมชั่วโมงชีวิตความส่องสว่างและอุณหภูมิสีของหลอดไฟ ข้อมูลจะถูกรวบรวมจากผู้ค้าปลีกซึ่งโดยปกติจะไม่ให้ทุกอย่างทำให้เกิดการคาดการณ์ที่ขาดหายไป อย่างไรก็ตามเราพยายามที่จะใช้ประโยชน์จากข้อมูลที่เรารวบรวมให้ได้มากที่สุด xn
Xiaowen Li

1
ตกลงฉันคิดว่านี่เป็นเพียงความเข้าใจเกี่ยวกับการถดถอย ฉันจะตรวจสอบการใส่ร้ายหลายครั้ง
gung - Reinstate Monica

ขอบคุณ Gung สำหรับความเข้าใจของคุณ คุณถูกต้องที่ไม่ได้รับข้อมูลใหม่โดยใช้สมการที่ 4 การใส่ความคิดกลายเป็นสิ่งที่ฉันต้องการ และคุณพูดถูกฉันได้วิ่งเข้าไปใน collinearity หลายอันทำให้ฉันมีค่า p ที่มากสำหรับสัมประสิทธิ์ จากนั้นฉันก็ต้องเผชิญกับทางเลือกในการลดจำนวนตัวแปรให้ได้ค่า p ที่น้อยลงสำหรับค่าสัมประสิทธิ์หรือเพิ่มค่าและ p ที่ใหญ่กว่า ฉันคิดว่าชีวิตเต็มไปด้วยการแลกเปลี่ยน r2
Xiaowen Li

ขอขอบคุณอีกครั้งสำหรับการอภิปรายเชิงนามธรรมของคุณเกี่ยวกับการถดถอย สถิติน่าสนใจมากหากเรามองว่าเป็นวิธีการค้นหาความจริง ผมจะดูเป็นมันอีกครั้งฉันกำลังทำกับชุดข้อมูลของฉัน :)
เสี่ยวเวินหลี่

คุณควรตรวจสอบการใส่ร้ายพารามิเตอร์ นี่เป็นงานที่ทำโดยแจกวางคิมที่รัฐไอโอวาซึ่งอาจเหมาะสำหรับสถานการณ์นี้ ดูbiomet.oxfordjournals.org/content/98/1/119.abstract
สถิตินักเรียน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.