หัวข้อที่คุณจะถามเกี่ยวกับการเป็นพหุ คุณอาจต้องการอ่านเธรดบางตัวใน CV ที่จัดหมวดหมู่ภายใต้แท็กmulticollinearity @ คำตอบของ whuber ที่ลิงค์ด้านบนโดยเฉพาะอย่างยิ่งยังคุ้มค่ากับเวลาของคุณ
การยืนยันว่า "ถ้าสองตัวทำนายมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ" ไม่ถูกต้อง หากมีผลกระทบที่แท้จริงของตัวแปรความน่าจะเป็นที่ตัวแปรจะมีนัยสำคัญคือฟังก์ชันของสิ่งต่าง ๆ เช่นขนาดของผลกระทบขนาดของความแปรปรวนข้อผิดพลาดความแปรปรวนของตัวแปรปริมาณข้อมูล คุณมีและจำนวนของตัวแปรอื่น ๆ ในรูปแบบ ไม่ว่าจะเป็นตัวแปรที่มีความสัมพันธ์ก็มีความเกี่ยวข้องเช่นกัน แต่ก็ไม่ได้แทนที่ข้อเท็จจริงเหล่านี้ พิจารณาการสาธิตอย่างง่ายต่อไปนี้ในR
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
ยังไม่มีข้อความ
X1X2R2X11 / ( 1 - R2)X110X110 ×X1
การคิดเกี่ยวกับสิ่งที่จะเกิดขึ้นหากคุณรวมทั้งตัวแปรที่สัมพันธ์กันและมีเพียงหนึ่งตัวที่คล้ายคลึงกัน แต่มีความซับซ้อนกว่าวิธีที่กล่าวถึงข้างต้นเล็กน้อย นี่เป็นเพราะไม่รวมตัวแปรหมายถึงโมเดลใช้องศาอิสระที่น้อยกว่าซึ่งเปลี่ยนความแปรปรวนที่เหลือและทุกอย่างที่คำนวณได้จากนั้น (รวมถึงความแปรปรวนของสัมประสิทธิ์การถดถอย) นอกจากนี้หากตัวแปรที่ไม่รวมมีความเกี่ยวข้องกับการตอบสนองความแปรปรวนในการตอบสนองเนื่องจากตัวแปรนั้นจะรวมอยู่ในความแปรปรวนที่เหลือทำให้มีขนาดใหญ่กว่าที่อื่น ดังนั้นสิ่งต่าง ๆ เปลี่ยนแปลงพร้อมกัน (ตัวแปรมีความสัมพันธ์หรือไม่กับตัวแปรอื่นและความแปรปรวนที่เหลือ) และผลที่แม่นยำของการลดลง / รวมถึงตัวแปรอื่น ๆ จะขึ้นอยู่กับวิธีการแลกเปลี่ยนเหล่านั้น
ด้วยความเข้าใจของ VIF นี่คือคำตอบสำหรับคำถามของคุณ:
- เนื่องจากความแปรปรวนของการกระจายตัวตัวอย่างของสัมประสิทธิ์การถดถอยจะมีขนาดใหญ่ขึ้น (โดยปัจจัยของ VIF) ถ้ามันมีความสัมพันธ์กับตัวแปรอื่น ๆ ในรูปแบบค่า p จะมีค่าสูงกว่า (เช่นมีนัยสำคัญน้อยกว่า) .
- ความแปรปรวนของสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นดังที่ได้กล่าวไปแล้ว
- Y
- ค่าที่คาดการณ์และความแปรปรวนของพวกเขาจะเปลี่ยนแปลงอย่างไรนั้นค่อนข้างซับซ้อน ขึ้นอยู่กับความสัมพันธ์ของตัวแปรและลักษณะที่สัมพันธ์กับตัวแปรตอบสนองของคุณในข้อมูลของคุณ เกี่ยวกับปัญหานี้อาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?