การถดถอยเชิงเส้นหลายตัวแปรกับแบบจำลองการถดถอยหลายตัวแปร


11

ในการตั้งค่าการถดถอยแบบไม่รวมตัวแปรเราพยายามทำแบบจำลอง

y=Xβ+noise

ที่เวกเตอร์ของการสังเกตและเมทริกซ์การออกแบบด้วยทำนาย การแก้ปัญหาคือ(XyRnnXRn×mmβ0=(XTX)1Xy

ในการตั้งค่าการถดถอยหลายตัวแปรเราพยายามสร้างแบบจำลอง

Y=Xβ+noise

ที่เป็นเมทริกซ์ของการสังเกตและตัวแปรแฝงที่แตกต่างกันการแก้ปัญหาคือ(XyRn×pnpβ0=(XTX)1XY

คำถามของฉันเป็นอย่างไรที่แตกต่างจากการดำเนินการถดถอยเชิงเส้นที่แตกต่างกันอย่างไร ? ฉันอ่านที่นี่ว่าในกรณีหลังเราคำนึงถึงความสัมพันธ์ระหว่างตัวแปรตาม แต่ฉันไม่เห็นจากคณิตศาสตร์p


1
ดูทฤษฎีบท Frisch-Waugh-Lovell
rsm

1
@amorfati: ดังนั้นถ้าฉันเข้าใจถูกต้องพวกเขาเหมือนกัน ทำไมผู้คนปฏิบัติต่อพวกเขาแตกต่างกันอย่างไร
Roy

คำตอบ:


6

ในการตั้งค่าของการถดถอยเชิงเส้นหลายตัวแปรคลาสสิกเรามีรูปแบบ:

Y=Xβ+ϵ

โดยที่แทนตัวแปรอิสระหมายถึงตัวแปรตอบสนองหลายตัวและเป็นคำที่มีเสียงรบกวน iid Gaussian เสียงรบกวนมีค่าเฉลี่ยเป็นศูนย์และสามารถมีความสัมพันธ์ข้ามตัวแปรการตอบสนอง วิธีแก้ปัญหาความน่าจะเป็นสูงสุดสำหรับน้ำหนักนั้นเทียบเท่ากับวิธีกำลังสองน้อยที่สุด (โดยไม่คำนึงถึงสหสัมพันธ์เสียง) [1] [2]:XYϵ

β^=(XTX)1XTY

สิ่งนี้เทียบเท่ากับการแก้ปัญหาการถดถอยแยกต่างหากสำหรับตัวแปรตอบกลับแต่ละตัว สิ่งนี้สามารถเห็นได้จากข้อเท็จจริงที่ว่าคอลัมน์ th ของ (มีน้ำหนักสำหรับตัวแปรเอาต์พุต th) สามารถรับได้โดยการคูณโดยคอลัมน์ที่ของ (มีค่าของตัวแปรตอบสนองที่ )iβ^i(XTX)1XTiYi

อย่างไรก็ตามการถดถอยเชิงเส้นหลายตัวแปรแตกต่างจากการแก้ปัญหาการถดถอยแยกจากกันเนื่องจากขั้นตอนการอนุมานทางสถิติมีความสัมพันธ์กันระหว่างตัวแปรตอบสนองหลายตัวแปร (เช่นดู [2], [3], [4]) ตัวอย่างเช่นเมทริกซ์ความแปรปรวนร่วมทางเสียงปรากฏขึ้นในการแจกแจงตัวอย่างสถิติการทดสอบและการประมาณช่วงเวลา

ความแตกต่างอื่นเกิดขึ้นถ้าเราอนุญาตให้ตัวแปรตอบกลับแต่ละชุดมีตัวแปร covariates ของตัวเอง:

Yi=Xiβi+ϵi

โดยที่แสดงถึงตัวแปรตอบสนองที่และและแสดงถึงชุดของ covariates และคำที่มีเสียงรบกวน ดังที่กล่าวมาข้อกำหนดด้านเสียงสามารถมีความสัมพันธ์ข้ามตัวแปรการตอบสนอง ในการตั้งค่านี้มีตัวประมาณที่มีประสิทธิภาพมากกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุดและไม่สามารถลดลงเพื่อแก้ปัญหาการถดถอยแยกสำหรับตัวแปรตอบสนองแต่ละตัว ตัวอย่างเช่นดู [1]YiiXiϵi

อ้างอิง

  1. Zellner (1962) วิธีที่มีประสิทธิภาพในการประมาณค่าการถดถอยและการทดสอบที่ไม่เกี่ยวข้อง
  2. Helwig (2017) การถดถอยเชิงเส้นหลายตัวแปร [สไลด์]
  3. ฟ็อกซ์และไวส์เบิร์ก (2011) ตัวแบบเชิงเส้นหลายตัวแปรใน R [ภาคผนวกถึง: ตัว Companion R กับการถดถอยแบบประยุกต์]
  4. Maitra (2013) แบบจำลองการถดถอยเชิงเส้นหลายตัวแปร [สไลด์]

1
ขอบคุณตอนนี้ชัดเจนขึ้น คุณมีการอ้างอิงสำหรับสูตรนี้หรือไม่? ฉันพบรูปสี่เหลี่ยมน้อยที่สุดเท่านั้น นอกจากนี้คุณรู้หรือไม่ว่าแพ็กเกจ Python นั้นใช้งานได้หรือไม่
Roy

1
ขออ้างอิงที่สอง เรามีความสัมพันธ์ที่จะเป็นเพียงความแปรปรวนร่วมของผลลัพธ์หรือไม่หรือเราเรียนรู้การเรียงลำดับบางอย่างถ้าความแปรปรวนแบบมีเงื่อนไข
generic_user

ฉันไม่แน่ใจ 100% ว่า @ user20160 อ้างถึงสิ่งเหล่านี้ แต่ฉันคิดว่าสิ่งที่พวกเขามีอยู่ในใจคือการประมาณสมการ / สมการการประมาณแบบทั่วไป EE / GEE สอดคล้องกันเมื่อโครงสร้างความแปรปรวนร่วมเป็น misspecified และคุณยังสามารถตั้งค่าโครงสร้างความแปรปรวนร่วมที่คาดหวัง อย่างไรก็ตามโมเดลเหล่านี้ได้รับการประเมินซ้ำ ๆ เมื่อเทียบกับ OLS ด้วยรูปแบบปิด คุณน่าจะสามารถประมาณ GEE / EE ใน Python ได้ แต่ฉันไม่รู้แพ็คเกจ
iacobus

1
@ Roy ฉันจะเขียนคำตอบและเพิ่มการอ้างอิง โพสต์ต้นฉบับของฉันคือสมมติว่ากรณีที่ตอนนี้เป็นวรรคสุดท้ายของการโพสต์แก้ไข ฉันจะพยายามเพิ่มรายละเอียดเพิ่มเติมในภายหลัง
user20160
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.