ช่วงเวลาความมั่นใจสำหรับสัมประสิทธิ์การถดถอยเชิงเส้นควรเป็นไปตามการแจกแจงแบบปกติหรือ


18

ลองมีโมเดลเชิงเส้นตัวอย่างเช่น ANOVA ง่ายๆ:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

ผลลัพธ์มีดังนี้:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

ตอนนี้ฉันลองสองวิธีที่แตกต่างกันเพื่อประเมินช่วงความมั่นใจของพารามิเตอร์เหล่านี้

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

คำถาม:

  1. การกระจายของสัมประสิทธิ์การถดถอยเชิงเส้นโดยประมาณคืออะไร? ปกติหรือ ?t
  2. ทำไมทั้งสองวิธีจึงให้ผลลัพธ์ที่ต่างกัน? สมมติว่ามีการแจกแจงแบบปกติและ SE ที่ถูกต้องฉันคาดว่าทั้งสองวิธีจะได้ผลลัพธ์เหมือนกัน

ขอบคุณมาก!

ข้อมูล ~ 0 + ความจริง

แก้ไขหลังจากคำตอบ :

คำตอบนั้นถูกต้องนี่จะให้ผลลัพธ์เหมือนกับconfint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

คำตอบ:


19

(1)เมื่อข้อผิดพลาดที่มีการกระจายตามปกติและความแปรปรวนของพวกเขาจะไม่ได้เป็นที่รู้จักกันแล้วβ - β 0มีเสื้อ-distribution ภายใต้สมมติฐานที่ว่าเบต้า0เป็นค่าสัมประสิทธิ์การถดถอยที่แท้จริง เริ่มต้นในคือการทดสอบβ0=0ดังนั้นเสื้อ-statistics รายงานมีเพียง β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

โปรดทราบว่าภายใต้เงื่อนไขความสม่ำเสมอสถิติข้างต้นมักจะกระจายแบบเชิงเส้นกำกับเสมอโดยไม่คำนึงว่าข้อผิดพลาดเป็นเรื่องปกติหรือรู้ว่าความแปรปรวนข้อผิดพลาด

(2)เหตุผลที่คุณจะได้รับผลลัพธ์ที่แตกต่างก็คือว่าเปอร์เซนต์ของการกระจายปกติจะแตกต่างจากเปอร์เซนต์ของ -distribution ดังนั้นตัวคูณที่คุณใช้อยู่หน้าข้อผิดพลาดมาตรฐานจะแตกต่างกันซึ่งในทางกลับกันจะให้ช่วงความมั่นใจที่แตกต่างกันt

โปรดจำไว้ว่าช่วงความเชื่อมั่นที่ใช้การแจกแจงแบบปกติคือ

β^±zα/2se(β^)

โดยที่คือα / 2 quantile ของการแจกแจงแบบปกติ ในกรณีที่มาตรฐานของ95 %ช่วงความเชื่อมั่น, α = 05และZ α / 2 1.96 ช่วงความมั่นใจตามt -distribution คือzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2

t5300p=1tz (เส้นสีดำที่เป็นของแข็ง) คูณเป็นเพิ่มขึ้นขนาดของกลุ่มตัวอย่าง

ป้อนคำอธิบายรูปภาพที่นี่


อ้อ !! ชิ้นงานที่ดี !! (+1)
gui11aume

มาโครขอบคุณสำหรับคำตอบ แต่คุณพูดถึงการกระจายตัวของสถิติ T ในขณะที่ฉันถามเกี่ยวกับการกระจายของสัมประสิทธิ์การถดถอย ความเข้าใจของฉันคือว่าสัมประสิทธิ์การถดถอยเป็นการกระจายตัวของค่าเฉลี่ย (การประมาณค่าสัมประสิทธิ์) และข้อผิดพลาดมาตรฐาน ฉันถามเกี่ยวกับการแจกจ่ายนี้ไม่ใช่การกระจายสถิติการทดสอบ ฉันอาจจะพลาดบางสิ่งบางอย่างดังนั้นโปรดลองอธิบายอย่างชัดเจนยิ่งขึ้น :) ขอบคุณ
อยากรู้อยากเห็น

2
β^β0se(β^)
tβ^tβ0se(β^)β^

คุณพูดถูก! นี้จะให้ว่าผลเช่นเดียวกับconfint(m1)แม้สำหรับขนาดตัวอย่างขนาดเล็ก! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
อยากรู้อยากเห็น

β^β^β0β0t
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.