ในการตั้งค่าของการถดถอยเชิงเส้นหลายตัวแปรคลาสสิกเรามีรูปแบบ:
Y=Xβ+ϵ
โดยที่แทนตัวแปรอิสระหมายถึงตัวแปรตอบสนองหลายตัวและเป็นคำที่มีเสียงรบกวน iid Gaussian เสียงรบกวนมีค่าเฉลี่ยเป็นศูนย์และสามารถมีความสัมพันธ์ข้ามตัวแปรการตอบสนอง วิธีแก้ปัญหาความน่าจะเป็นสูงสุดสำหรับน้ำหนักนั้นเทียบเท่ากับวิธีกำลังสองน้อยที่สุด (โดยไม่คำนึงถึงสหสัมพันธ์เสียง) [1] [2]:XYϵ
β^=(XTX)−1XTY
สิ่งนี้เทียบเท่ากับการแก้ปัญหาการถดถอยแยกต่างหากสำหรับตัวแปรตอบกลับแต่ละตัว สิ่งนี้สามารถเห็นได้จากข้อเท็จจริงที่ว่าคอลัมน์ th ของ (มีน้ำหนักสำหรับตัวแปรเอาต์พุต th) สามารถรับได้โดยการคูณโดยคอลัมน์ที่ของ (มีค่าของตัวแปรตอบสนองที่ )iβ^i(XTX)−1XTiYi
อย่างไรก็ตามการถดถอยเชิงเส้นหลายตัวแปรแตกต่างจากการแก้ปัญหาการถดถอยแยกจากกันเนื่องจากขั้นตอนการอนุมานทางสถิติมีความสัมพันธ์กันระหว่างตัวแปรตอบสนองหลายตัวแปร (เช่นดู [2], [3], [4]) ตัวอย่างเช่นเมทริกซ์ความแปรปรวนร่วมทางเสียงปรากฏขึ้นในการแจกแจงตัวอย่างสถิติการทดสอบและการประมาณช่วงเวลา
ความแตกต่างอื่นเกิดขึ้นถ้าเราอนุญาตให้ตัวแปรตอบกลับแต่ละชุดมีตัวแปร covariates ของตัวเอง:
Yi=Xiβi+ϵi
โดยที่แสดงถึงตัวแปรตอบสนองที่และและแสดงถึงชุดของ covariates และคำที่มีเสียงรบกวน ดังที่กล่าวมาข้อกำหนดด้านเสียงสามารถมีความสัมพันธ์ข้ามตัวแปรการตอบสนอง ในการตั้งค่านี้มีตัวประมาณที่มีประสิทธิภาพมากกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุดและไม่สามารถลดลงเพื่อแก้ปัญหาการถดถอยแยกสำหรับตัวแปรตอบสนองแต่ละตัว ตัวอย่างเช่นดู [1]YiiXiϵi
อ้างอิง
- Zellner (1962) วิธีที่มีประสิทธิภาพในการประมาณค่าการถดถอยและการทดสอบที่ไม่เกี่ยวข้อง
- Helwig (2017) การถดถอยเชิงเส้นหลายตัวแปร [สไลด์]
- ฟ็อกซ์และไวส์เบิร์ก (2011) ตัวแบบเชิงเส้นหลายตัวแปรใน R [ภาคผนวกถึง: ตัว Companion R กับการถดถอยแบบประยุกต์]
- Maitra (2013) แบบจำลองการถดถอยเชิงเส้นหลายตัวแปร [สไลด์]