คำถามของฉันเกิดจากการพูดคุยกับ @whuber ในความคิดเห็นของคำถามอื่น
โดยเฉพาะความคิดเห็นของ @whuber มีดังนี้:
เหตุผลหนึ่งที่ทำให้คุณประหลาดใจก็คือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันของการถดถอยนั้นแตกต่างกันดังนั้นแม้ว่าเราจะเข้าใจว่าสหสัมพันธ์และความชันนั้นวัดในสิ่งเดียวกันจริง ๆ ทำไมค่า p ของพวกเขาจึงเหมือนกัน นั่นแสดงให้เห็นว่าปัญหาเหล่านี้ลึกซึ้งยิ่งกว่าเพียงว่าและควรเท่ากับตัวเลขหรือไม่β
นี่ทำให้ฉันคิดถึงมันและฉันก็ได้คำตอบที่น่าสนใจมากมาย ตัวอย่างเช่นฉันพบคำถามนี้ " สมมติฐานของค่าสัมประสิทธิ์สหสัมพันธ์ " แต่ไม่สามารถดูว่าสิ่งนี้จะชี้แจงความคิดเห็นข้างต้น
ฉันพบคำตอบที่น่าสนใจมากขึ้นเกี่ยวกับความสัมพันธ์ของ Pearson'sและความชันในการถดถอยเชิงเส้นอย่างง่าย (ดูที่นี่และที่นี่เป็นต้น) แต่ดูเหมือนว่าไม่มีใครตอบคำถามที่ @whuber อ้างถึงในความคิดเห็นของเขา ถึงฉัน).β
คำถามที่ 1:อะไรคือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย
สำหรับคำถามที่ 2 พิจารณาผลลัพธ์ต่อไปนี้ในR
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
และการส่งออกของcor.test()
ฟังก์ชั่น:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
ดังที่เห็นlm()
และcov.test()
เอาท์พุทสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันและความชันประมาณ ( ) นั้นแตกต่างกันอย่างมาก 0.96 เทียบกับ 0.485 ตามลำดับ แต่ค่า t-p และค่า p- เหมือนกันβ 1
จากนั้นฉันก็ลองดูว่าฉันสามารถคำนวณค่า t สำหรับและซึ่งเหมือนกันได้หรือไม่แม้ว่าและจะแตกต่างกัน และนั่นคือสิ่งที่ฉันติดอยู่อย่างน้อยก็สำหรับ :β 1 r β 1 r
คำนวณความชัน ( ) ในการถดถอยเชิงเส้นอย่างง่ายโดยใช้ผลรวมของกำลังสองของและ : x y
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
คำนวณการประมาณความชันของการถดถอยอย่างน้อยกำลังสอง (มีข้อพิสูจน์ในเรื่องนี้ในหนังสือ R ฉบับที่ 1 ของ Crawleyหน้า 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
คำนวณข้อผิดพลาดมาตรฐานสำหรับ :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
และค่า t-value และ p-value สำหรับ :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
สิ่งที่ฉันไม่ทราบว่าที่จุดนี้และนี่คือคำถามที่ 2คือวิธีการคำนวณเดียว T-ค่าใช้แทนβ 1 (บางทีในทารกขั้นตอน)
ฉันสมมติว่าเนื่องจากcor.test()
สมมติฐานทางเลือกคือว่าความสัมพันธ์ที่แท้จริงไม่เท่ากับ 0 (ดูcor.test()
ผลลัพธ์ด้านบน) ฉันคาดหวังบางอย่างเช่นสัมประสิทธิ์สหสัมพันธ์เพียร์สันหารด้วย "ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์สหสัมพันธ์เพียร์สัน" (คล้ายกับข้างบน)?! แต่ข้อผิดพลาดมาตรฐานนั้นจะเป็นอย่างไรและทำไมb1/se.b1
บางทีนี่อาจจะเกี่ยวข้องกับสมมติฐานที่กล่าวถึงข้างต้นซึ่งเป็นการทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย !
แก้ไข (27 ก.ค. 2017): ในขณะที่ @whuber ได้ให้คำอธิบายอย่างละเอียดสำหรับคำถามที่ 1 (และอีกส่วนคำถามที่ 2ดูความคิดเห็นภายใต้คำตอบของเขา) ฉันทำการขุดเพิ่มเติมและพบว่าทั้งสองโพสต์ ( ที่นี่และที่นี่ ) แสดงข้อผิดพลาดมาตรฐานเฉพาะสำหรับซึ่งใช้งานได้ดีในการตอบคำถาม 2นั่นคือทำซ้ำค่า t ที่กำหนดโดยr :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956