การเพิ่มตัวแปรเพิ่มเติมลงในสัมประสิทธิ์การเปลี่ยนแปลงการถดถอยหลายตัวแปรของตัวแปรที่มีอยู่หรือไม่?


16

ว่าฉันมีการถดถอยหลายตัวแปร (ตัวแปรอิสระหลาย) ที่ประกอบด้วย 3 ตัวแปร ตัวแปรแต่ละตัวนั้นมีค่าสัมประสิทธิ์ที่กำหนด หากฉันตัดสินใจที่จะแนะนำตัวแปรที่ 4 และรันการถดถอยอีกครั้งสัมประสิทธิ์ของตัวแปรดั้งเดิม 3 ตัวจะเปลี่ยนไปหรือไม่

กว้างมากขึ้น: ในการถดถอยหลายตัวแปร (ตัวแปรอิสระหลายตัว) สัมประสิทธิ์ของตัวแปรที่กำหนดได้รับอิทธิพลจากสัมประสิทธิ์ของตัวแปรอื่นหรือไม่?


1
โปรดแก้ไขคำถามให้แม่นยำยิ่งขึ้น อย่าโดยmultivariableคุณหมายถึงหลายตัวแปรอิสระ ( "หลายถดถอย") หรือขึ้นอยู่กับตัวแปรหลาย ( "ถดถอยหลายตัวแปร" หรือ "MAN (C) OVA")?
ttnphns

1
หากคำตอบคือไม่ก็ไม่จำเป็นต้องทำการถดถอยหลายตัวแปรในตอนแรก! (เราสามารถทำได้หลายอย่างที่ไม่สามารถเปลี่ยนแปลงได้)
603

1
นั่นคือจุดที่ชาญฉลาด @ user603 แต่ฉันคิดว่าอาจยังมีสถานที่สำหรับการถดถอยหลายครั้งซึ่งหากตัวแปรอื่น ๆ มีความสัมพันธ์กับการตอบสนองอย่างมีความหมาย (แม้ว่าไม่ใช่ตัวแปรอธิบาย) พวกเขาสามารถลดความแปรปรวนที่เหลือซึ่งนำไปสู่การปรับปรุง พลังงานและความแม่นยำ
gung - Reinstate Monica

คำตอบ:


23

ประมาณการค่าพารามิเตอร์ในตัวแบบการถดถอย ) จะเปลี่ยนถ้าตัวแปรX J , จะถูกเพิ่มในรูปแบบที่เป็น: β^iXj

  1. สัมพันธ์กับตัวแปรที่สอดคล้องกันของพารามิเตอร์นั้น (ซึ่งมีอยู่ในโมเดลแล้ว) และXi
  2. สัมพันธ์กับตัวแปรการตอบสนองY

เบต้าโดยประมาณจะไม่เปลี่ยนแปลงเมื่อมีการเพิ่มตัวแปรใหม่หากอย่างใดอย่างหนึ่งข้างต้นไม่เกี่ยวข้องกัน โปรดทราบว่าไม่ว่าจะเป็น uncorrelated ในประชากร (เช่น , หรือρ ( X J , Y ) = 0 ) จะไม่เกี่ยวข้อง สิ่งที่สำคัญคือว่าทั้งสองมีความสัมพันธ์ตัวอย่างจะตรง0 สิ่งนี้จะไม่เกิดขึ้นจริงในทางปฏิบัติเว้นแต่ว่าคุณกำลังทำงานกับข้อมูลการทดลองที่ตัวแปรถูกจัดการเช่นว่าพวกเขาไม่ได้มีความสัมพันธ์กับการออกแบบ ρ(Xi,Xj)=0 ρ(Xj,Y)=00

โปรดทราบว่าจำนวนพารามิเตอร์ที่เปลี่ยนแปลงอาจไม่มีความหมายมากนัก (ขึ้นอยู่กับทฤษฎีของคุณอย่างน้อยส่วนหนึ่ง) ยิ่งกว่านั้นจำนวนที่พวกเขาสามารถเปลี่ยนได้คือฟังก์ชันของขนาดของสองสหสัมพันธ์ข้างต้น

ในบันทึกอื่นมันไม่ถูกต้องที่จะคิดว่าปรากฏการณ์นี้เป็น "สัมประสิทธิ์ของตัวแปรที่กำหนด [กำลัง] ได้รับอิทธิพลจากสัมประสิทธิ์ของตัวแปรอื่น" มันไม่ใช่betasที่มีอิทธิพลต่อกันและกัน ปรากฏการณ์นี้เป็นผลลัพธ์ตามธรรมชาติของอัลกอริทึมที่ซอฟต์แวร์ทางสถิติใช้ในการประมาณค่าพารามิเตอร์ความชัน ลองนึกภาพสถานการณ์ที่เกิดจากทั้งX iและX jซึ่งในทางกลับกันมีความสัมพันธ์กัน หากมีเพียงX iเท่านั้นที่อยู่ในแบบจำลองความผันแปรบางอย่างในYที่เกิดจากX jจะถูกนำมาประกอบกับX iอย่างไม่เหมาะสมYXiXjXiYXjXiที่เกิดจากการซึ่งหมายความว่าค่าของXiนั้นมีอคติ; นี้เรียกว่าอคติตัวแปรละเว้น


เป็นจุดที่ดีมากในประโยคสุดท้าย
Glen_b -Reinstate Monica

ผมหารือเกี่ยวกับการพลิกด้านของปัญหานี้ในคำตอบของฉันที่นี่: ประมาณแทน1 x 1 + B 2 x 2 + B 3 xb1x1+b2x2b1x1+b2x2+b3x3 3
gung - Reinstate Monica

@gung ฉันรู้ว่าคำตอบของคุณคือเก่า แต่ฉันเพียงแค่พยายามนี้ ideone.com/6CAkSRที่ฉันสร้างและx 2มีความสัมพันธ์และx 1เป็น uncorrelated กับY แต่เมื่อฉันเพิ่มx 1รูปแบบพารามิเตอร์ของ x2 เปลี่ยนแม้ว่าx 1เป็น uncorrelated กับY คุณพูดในคำตอบของคุณว่า "สัมพันธ์กับตัวแปรตอบกลับY เบต้าโดยประมาณจะไม่เปลี่ยนแปลงเมื่อมีการเพิ่มตัวแปรใหม่ถ้าสิ่งใดสิ่งหนึ่งข้างต้นไม่มีความสัมพันธ์กัน" ฉันผิดหรือเปล่า? yx2x1yx1x1yY
ลอยด์

1
ไม่จำเป็นต้องมีความสัมพันธ์กันอย่างสมบูรณ์แบบ ถ้าเป็นเช่นนั้นเบต้าสำหรับไม่ควรเปลี่ยนแปลงเว้นแต่จะมีข้อผิดพลาดบางอย่าง s1
gung - Reinstate Monica

@ gung ขอบคุณมากสำหรับการตอบกลับ คุณรู้วิธีการสร้างข้อมูลที่สมบูรณ์แบบหรือไม่? ฉันรู้ว่ามันไม่สามารถเกิดขึ้นได้ในชีวิตจริง
ลอยด์

3

เป็นไปได้ทางคณิตศาสตร์ที่ค่าสัมประสิทธิ์จะไม่เปลี่ยนแปลง แต่ก็ไม่น่าที่จะไม่มีการเปลี่ยนแปลงใด ๆ กับข้อมูลจริงแม้ว่าตัวแปรอิสระทั้งหมดจะเป็นอิสระจากกัน แต่เมื่อเป็นกรณีนี้การเปลี่ยนแปลง (นอกเหนือจากในการสกัดกั้น) จะมีค่าเป็น 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

ในโลกแห่งความเป็นจริงตัวแปรอิสระมักจะเกี่ยวข้องกัน ในกรณีนี้การเพิ่มตัวแปรที่ 4 ลงในสมการจะเปลี่ยนสัมประสิทธิ์อื่น ๆ ซึ่งบางครั้งก็มาก

จากนั้นก็มีปฏิสัมพันธ์ที่เป็นไปได้ .... แต่นั่นเป็นคำถามอื่น


1

โดยทั่วไปแล้วใช่การเพิ่มตัวแปรจะเปลี่ยนค่าสัมประสิทธิ์ก่อนหน้าเกือบตลอดเวลา

อันที่จริงนี่เป็นสาเหตุของความขัดแย้งของซิมป์สันซึ่งค่าสัมประสิทธิ์สามารถเปลี่ยนแปลงได้แม้จะเป็นสัญญาณย้อนกลับ

เพื่อไม่ให้เกิดขึ้นเราต้องการตัวแปรใหม่ที่เป็นฉากตั้งกับตัวแปรก่อนหน้า สิ่งนี้มักเกิดขึ้นในการทดลองออกแบบ แต่ไม่น่าจะเกิดขึ้นกับข้อมูลที่ไม่ได้วางแผนรูปแบบของตัวแปรอิสระ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.