แม้ว่า collinearity (ของตัวแปรทำนาย) เป็นคำอธิบายที่เป็นไปได้ แต่ฉันอยากจะแนะนำว่ามันไม่ใช่คำอธิบายที่ให้ความกระจ่างเพราะเรารู้ว่า collinearity นั้นเกี่ยวข้องกับ "ข้อมูลทั่วไป" ในกลุ่มผู้ทำนายดังนั้นจึงไม่มีอะไรลึกลับหรือตอบโต้เกี่ยวกับด้าน ผลของการแนะนำตัวทำนายความสัมพันธ์ที่สองลงในแบบจำลอง
ให้เราพิจารณากรณีของผู้ทำนายสองคนที่เป็นมุมฉากอย่างแท้จริง : ไม่มีความเป็นคู่กันในหมู่พวกเขา การเปลี่ยนแปลงที่สำคัญในเรื่องสำคัญยังคงเกิดขึ้นได้
กำหนดตัวแปรตัวทำนายและX 2และให้Yตั้งชื่อตัวทำนาย การถดถอยของYเทียบกับX 1จะล้มเหลวอย่างมีนัยสำคัญเมื่อความแปรปรวนในYรอบค่าเฉลี่ยไม่ลดลงอย่างเห็นได้ชัดเมื่อใช้X 1เป็นตัวแปรอิสระ เมื่อรูปแบบที่มีความเกี่ยวข้องอย่างมากกับสองตัวแปรX 2 ,แต่สถานการณ์ที่มีการเปลี่ยนแปลง โปรดจำไว้ว่าการถดถอยหลายครั้งของYเทียบกับX 1และX 2เทียบเท่าX1X2YYX1YX1X2YX1X2
แยกถอยหลังและX 1กับX 2YX1X2
ถอยหลังเหลือกับX 1เหลือYX1
เหลือจากขั้นตอนแรกได้ลบผลกระทบของ 2 เมื่อX 2มีความสัมพันธ์อย่างใกล้ชิดกับYสิ่งนี้สามารถเปิดเผยความแปรปรวนจำนวนเล็กน้อยที่ถูกหลอกลวงก่อนหน้านี้ ถ้านี้รูปแบบที่มีความเกี่ยวข้องกับX 1เราได้รับผลอย่างมีนัยสำคัญX2X2YX1
ทั้งหมดนี้อาจจะชี้แจงด้วยตัวอย่างที่เป็นรูปธรรม ในการเริ่มต้นให้ใช้R
เพื่อสร้างตัวแปรอิสระสองมุมฉากพร้อมกับข้อผิดพลาดแบบสุ่มอิสระ :ε
n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)
( svd
ขั้นตอนนี้ทำให้มั่นใจได้ว่าทั้งสองคอลัมน์ของเมทริกซ์x
(แทนและX 2 ) เป็นแบบมุมฉากโดยพิจารณาความเป็นเส้นตรงเป็นคำอธิบายที่เป็นไปได้ของผลที่ตามมาใด ๆ )X1X2
จากนั้นสร้างเป็นชุดเชิงเส้นของXและข้อผิดพลาด ฉันได้ปรับค่าสัมประสิทธิ์เพื่อสร้างพฤติกรรมต่อต้านการใช้งานง่าย:YX
y <- x %*% c(0.05, 1) + eps * 0.01
นี่คือการรับรู้ของโมเดลกับn = 32รายY~ฉันฉันวันที่ยังไม่มีข้อความ( 0.05 X1+ 1.00 X2, 0.012)n = 32
ดูการถดถอยทั้งสองที่เป็นปัญหา ก่อนอื่นถอยหลังเทียบกับX 1เท่านั้น:YX1
> summary(lm(y ~ x[,1]))
...
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576 0.032423 -0.079 0.937
x[, 1] 0.068950 0.183410 0.376 0.710
ค่า p ที่สูงถึง 0.710 แสดงว่านั้นไม่มีนัยสำคัญอย่างสมบูรณ์X1
ถัดไปถอยหลังกับX 1และX 2 :YX1X2
> summary(lm(y ~ x))
...
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576 0.001678 -1.535 0.136
x1 0.068950 0.009490 7.265 5.32e-08 ***
x2 1.003276 0.009490 105.718 < 2e-16 ***
ทันใดนั้นในการปรากฏตัวของ , X 1มีความสำคัญอย่างยิ่งตามที่ระบุโดยค่า p- ใกล้ศูนย์สำหรับตัวแปรทั้งสองX2X1
เราสามารถเห็นภาพพฤติกรรมนี้ได้โดยใช้เมทริกซ์กระจายของตัวแปร , X 2และYพร้อมกับส่วนที่เหลือที่ใช้ในการอธิบายลักษณะสองขั้นตอนของการถดถอยหลายแบบด้านบน เนื่องจากX 1และX 2เป็น orthogonal ค่าX 1จะเท่ากับX 1ดังนั้นจึงไม่จำเป็นต้องวาดใหม่ เราจะรวมส่วนที่เหลือของYเทียบกับX 2ในเมทริกซ์สแคทเทอร์พล็อตX1X2YX1X2X1X1YX2
lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)
นี่คือการเรนเดอร์ของมัน (พร้อม prettification เล็กน้อย):
เมทริกซ์ของกราฟิกนี้มีสี่แถวและสี่คอลัมน์ซึ่งฉันจะนับถอยหลังจากด้านบนและจากซ้ายไปขวา
หมายเหตุ:
scatterplot ในแถวที่สองและคอลัมน์แรกยืนยันตั้งฉากของการทำนายเหล่านี้: น้อยเส้นสี่เหลี่ยมเป็นแนวนอนและความสัมพันธ์เป็นศูนย์(X1,X2)
scatterplot ในแถวที่สามและคอลัมน์แรกแสดงถึงความสัมพันธ์เล็กน้อย แต่ไม่มีนัยสำคัญอย่างสมบูรณ์รายงานโดยการถดถอยแรกของYกับX 1 (ค่าสัมประสิทธิ์สหสัมพันธ์, ρ , เพียง0.07 )(X1,Y)YX1ρ0.07
scatterplot ในแถวที่สามและคอลัมน์ที่สองแสดงให้เห็นถึงความสัมพันธ์ที่แข็งแกร่งระหว่างYและตัวแปรอิสระที่สอง (ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ0.996 )( X2, วาย)Y0.996
แถวที่สี่ตรวจสอบความสัมพันธ์ระหว่างส่วนที่เหลือของ (ถดถอยกับX 2 ) และตัวแปรอื่น ๆ :YX2
ขนาดในแนวตั้งแสดงให้เห็นว่าสิ่งตกค้างที่มี (ค่อนข้าง) ค่อนข้างเล็ก: เราไม่สามารถเห็นได้อย่างง่ายดายพวกเขาใน scatterplot ของกับX 2YX2
ส่วนที่เหลือมีความสัมพันธ์อย่างยิ่งกับ ( ρ = 0.80 ) การถดถอยต่อX 2ได้เปิดโปงพฤติกรรมที่ซ่อนอยู่ก่อนหน้านี้X1ρ = 0.80X2
โดยการก่อสร้างไม่มีความสัมพันธ์ที่เหลืออยู่ระหว่างสิ่งตกค้างและ 2X2
มีความสัมพันธ์กันเล็กน้อยระหว่างกับสิ่งตกค้างเหล่านี้ ( ρ = 0.09 ) นี้แสดงให้เห็นว่าเหลือสามารถปฏิบัติตนอย่างสิ้นเชิงที่แตกต่างกว่าYตัวเอง นั่นคือวิธีที่X 1สามารถเปิดเผยได้ในทันทีในฐานะผู้สนับสนุนที่สำคัญต่อการถดถอยYρ = 0.09YX1
ในที่สุดก็เป็นที่น่าสังเกตว่าทั้งสองประมาณการของค่าสัมประสิทธิ์ (ทั้งสองเท่ากับ0.06895ไม่ไกลจากค่าที่ตั้งใจไว้ที่0.05 ) เห็นด้วยเพียงเพราะX 1และX 2เป็น orthogonal ยกเว้นในการทดลองออกแบบมันเป็นเรื่องยากสำหรับ orthogonality ที่จะถืออย่างแน่นอน การออกเดินทางจาก orthogonality มักจะทำให้ค่าประมาณสัมประสิทธิ์การเปลี่ยนแปลงX10.068950.05X1X2