ความแปรปรวนร่วม - เมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดในการถดถอยเชิงเส้น


12

เมทริกซ์ข้อผิดพลาด var / cov คำนวณโดยใช้ชุดการวิเคราะห์ทางสถิติในทางปฏิบัติอย่างไร

แนวคิดนี้ชัดเจนสำหรับฉันในทางทฤษฎี แต่ไม่ใช่ในทางปฏิบัติ ฉันหมายถึงถ้าฉันมีเวกเตอร์ของตัวแปรสุ่มฉันเข้าใจว่าความแปรปรวน / ความแปรปรวนร่วมเมทริกซ์Σจะได้รับผลิตภัณฑ์ภายนอกของความเบี่ยงเบนจาก --- เวกเตอร์เฉลี่ย: Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ]X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

แต่เมื่อฉันมีตัวอย่างข้อผิดพลาดของการสังเกตของฉันไม่ใช่ตัวแปรสุ่ม หรือดีกว่าพวกมันคือ แต่ถ้าฉันเอาตัวอย่างที่เหมือนกันจำนวนหนึ่งจากประชากรเดียวกัน มิฉะนั้นพวกเขาจะได้รับ ดังนั้นคำถามของฉันคือ: แพคเกจทางสถิติสามารถผลิตเมทริกซ์ var / cov เริ่มต้นจากรายการการสังเกต (เช่นตัวอย่าง) ที่จัดทำโดยนักวิจัยได้อย่างไร


ข้อผิดพลาดของการสังเกตของคุณคือฟังก์ชั่นของตัวแปรสุ่ม (ของ y) และดังนั้นจึงสุ่มตัวเอง ตามเงื่อนไขบน X เพียงอย่างเดียวพวกเขาจะไม่ได้รับ
user603

1
ใช่ฉันเห็นด้วยอย่างยิ่ง แต่สิ่งที่คุณพูดทำงานได้ในทางทฤษฎี ถ้าฉันวาดพูดสุ่ม 100 ตัวอย่างขนาดเท่ากันจากประชากรเดียวกันข้อผิดพลาดการสังเกตแต่ละคนจะเป็นตัวแปรสุ่มที่มี (0, sigma ^ 2) ถ้าฉันวาดตัวอย่างเพียงหนึ่งตัวอย่าง ในกรณีดังกล่าวค่าเฉลี่ยของความผิดพลาดของการสังเกตแต่ละครั้งเป็นข้อผิดพลาดเอง ชัดเจนหรือไม่ว่าฉันกำลังพูดอะไร สิ่งที่ฉันพยายามจะทำความเข้าใจคือแพคเกจเช่น Stata คำนวณเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมโดยใช้ตัวอย่างเพียงตัวอย่างเดียวที่ดึงมาจากประชากรได้อย่างไร
Riccardo

คำตอบ:


7

y=Xβ+ϵ

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

XtX


3
  1. σ2

s2=ε^ε^np

นี้จะรวมอยู่ในการปฏิบัติถดถอยและการวิเคราะห์ความแปรปรวนโดยใช้ R โดยจูเลียนเจ Faraway, หน้า 21

ตัวอย่างการคำนวณใน R, ตามรูปแบบเชิงเส้นของไมล์ต่อแกลลอนถดถอยในหลายรูปแบบรายละเอียดรถรวมอยู่ในฐานข้อมูล:mtcars ols = lm(mpg ~ disp + drat + wt, mtcars)เหล่านี้คือการคำนวณด้วยตนเองและผลลัพธ์ของlm()ฟังก์ชัน:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. β^

Var[β^X]=σ2(XX)1

ประเมินตามหน้า 8 ของเอกสารออนไลน์นี้เป็น

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

Y=βX+εYXβXY


สวัสดี Rajiv ขอบคุณสำหรับการแก้ไข ดังนั้นคุณสามารถอธิบายวิธี Stata (หรือแพคเกจสถิติอื่น ๆ ) เริ่มต้นจาก Y (และ epsilon) จัดการเพื่อให้ได้มาซึ่งความแปรปรวนร่วมความแปรปรวนร่วมความแปรปรวนร่วม Sigma?
Riccardo

e^e^

เห็นด้วยกับ user603 โปรดตรวจสอบหน้า 21 ของcran.r-project.org/doc/contrib/Faraway-PRA.pdf สิ่งนี้อยู่บนพื้นฐานของ R แต่รวมถึงการอภิปรายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยเชิงเส้น
Rajiv Sambasivan

สวัสดีทั้งคู่ขอบคุณก่อนอื่น ฉันเห็นด้วยกับคุณผู้ใช้ 603 และฉันคาดหวังคำตอบนี้ แต่ถ้าเมทริกซ์ var / cov คำนวณโดยการคำนวณผลคูณภายนอกของเวกเตอร์ข้อผิดพลาดนั่นหมายความว่าค่าเฉลี่ยขององค์ประกอบข้อผิดพลาดในกรณีส่วนใหญ่จะไม่เป็นศูนย์ตามสมมติฐานของความเป็นอิสระ ขวา? นี่คือสิ่งที่ฉันสงสัยหมุนรอบ Rajiv ฉันดูคำแนะนำที่ดีที่คุณแนะนำ แต่ไม่พบคำตอบ ขอบคุณล่วงหน้าสำหรับคำตอบใด ๆ ในอนาคต
Riccardo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.