พารามิเตอร์การกระจายในเอาต์พุต GLM


11

ฉันวิ่ง glm ใน R และใกล้ด้านล่างสุดของsummary()เอาต์พุตมันระบุ

(Dispersion parameter for gaussian family taken to be 28.35031)

ฉันได้ทำการค้นหาใน Google และได้เรียนรู้ว่าพารามิเตอร์การกระจายใช้เพื่อให้พอดีกับข้อผิดพลาดมาตรฐาน ฉันหวังว่าใครบางคนสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับพารามิเตอร์การกระจายคืออะไรและควรตีความอย่างไร

คำตอบ:


9

วิธีหนึ่งในการสำรวจสิ่งนี้คือลองปรับแบบจำลองเดียวกันโดยใช้เครื่องมือต่าง ๆ นี่คือตัวอย่าง:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

คุณจะเห็นได้ว่าข้อผิดพลาดมาตรฐานส่วนที่เหลือของตัวแบบเชิงเส้นเป็นแค่สแควร์รูทของการกระจายตัวจาก glm หรืออีกนัยหนึ่งการกระจายตัว (สำหรับแบบเกาส์เซียน) นั้นเหมือนกับความคลาดเคลื่อนกำลังสองเฉลี่ย


4

ให้เราพิจารณาสถานการณ์ง่ายๆที่ไม่มีข้อมูล covariate ในข้อมูลของคุณ บอกว่าคุณเพียงแค่ต้องสังเกต{R}Y1,Y2,,YnR

หากคุณใช้การแจกแจงแบบปกติเพื่อทำโมเดลข้อมูลของคุณคุณอาจจะเขียนมัน

YiN(μ,σ2) ,

จากนั้นลองประเมินและอาจผ่านการประเมินความเป็นไปได้สูงสุดμσ

แต่สมมุติว่าข้อมูลของคุณเป็นข้อมูลนับและไม่กระจายตามปกติ กรณีนี้ไม่ได้ต่อเนื่องดังนั้นคุณอาจใช้การกระจายปัวซองแทน:

YiPoisson(λ)แลมบ์ดา)

อย่างไรก็ตามคุณมีพารามิเตอร์เดียวที่นี่! เดียวพารามิเตอร์กำหนดทั้งค่าเฉลี่ยและความแปรปรวนโดยและ\ สิ่งนี้จะเกิดขึ้นเมื่อคุณใช้การแจกแจงแบบเบอร์โนลลีหรือทวินาม แต่คุณอาจมีความแปรปรวนมากขึ้นหรือน้อยลงในข้อมูลของคุณอาจเป็นเพราะการสังเกตนั้นไม่ได้เป็นจริงหรือการกระจายที่คุณเลือกนั้นไม่สมจริงพอλE[Yi]=λVar[Yi]=λ

ดังนั้นผู้คนจึงเพิ่มพารามิเตอร์การกระจายเพื่อให้ได้ระดับความอิสระเพิ่มขึ้นในการสร้างแบบจำลองค่าเฉลี่ยและความแปรปรวนพร้อมกัน ฉันเดาว่าตำราเรียนใด ๆ เกี่ยวกับ GLM จะให้รายละเอียดและคำอธิบายทางคณิตศาสตร์เกี่ยวกับมันคืออะไร แต่ฉันเชื่อว่าแรงบันดาลใจนั้นค่อนข้างง่ายเช่นนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.