มีสององค์ประกอบในตัวอย่างของ @ Peter ซึ่งอาจเป็นประโยชน์ในการคลี่คลาย:
(1) โมเดลข้อมูลจำเพาะผิดพลาด รุ่นต่างๆ
yi=β0+β1xi+εi(1)
&
wi=γ0+γ1zi+ζi(2)
ที่ &zi=√wi=yixi−−√ทั้งคู่ไม่เป็นความจริง หากคุณแสดงอีกครั้งในแง่ของการตอบสนองของผู้อื่นพวกเขาจะกลายเป็นไม่เชิงเส้นในพารามิเตอร์ที่มีข้อผิดพลาด heteroskedasticzi=xi−−√
wi=β0z2i+β1+εiz2i−−−−−−−−−−−√(1)
yi=(γ0x−−√i+γ1x−−√i+ζix−−√i)2(2)
ถ้าสมมุติให้เป็นตัวแปรสุ่มแบบเกาส์ซึ่งเป็นอิสระจากX แสดงว่าเป็นกรณีพิเศษของรุ่น 1 ซึ่งβ 1 = 0และคุณไม่ควรใช้รุ่น 2 แต่ถ้าWถือว่าเป็นสุ่มแบบเกาส์ ตัวแปรอิสระของZคุณไม่ควรใช้โมเดล 1 การตั้งค่าใด ๆ สำหรับโมเดลหนึ่งแทนที่จะเป็นอีกโมเดลนั้นต้องมาจากทฤษฎีที่สำคัญหรือความเหมาะสมของข้อมูลYXβ1=0WZ
(2) การเปลี่ยนแปลงของการตอบสนอง หากคุณรู้ว่า & Xเป็นตัวแปรสุ่มแบบเกาส์อิสระทำไมความสัมพันธ์ระหว่างW & Zยังคงทำให้คุณประหลาดใจหรือคุณจะเรียกมันว่าปลอม ความคาดหวังตามเงื่อนไขของWสามารถประมาณด้วยวิธีเดลต้า:YXWZW
EYx−−√=EY−−√z≈β0−−√+VarY8β3/20z
มันย่อมเป็นหน้าที่ของZz
ติดตามผ่านตัวอย่าง ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
yxwzwzzw
Aldrich (2005), "สหสัมพันธ์แท้และเกเรใน Pearson และเทศกาลคริสต์มาส", วิทยาศาสตร์สถิติ , 10 , 4ให้มุมมองทางประวัติศาสตร์ที่น่าสนใจในประเด็นเหล่านี้