วิธีตีความพารามิเตอร์ใน GLM with family = Gamma


21

ฉันมีคำถามเกี่ยวกับการตีความพารามิเตอร์สำหรับ GLM ที่มีตัวแปรตามการกระจายแกมม่า นี่คือสิ่งที่ R ส่งคืนสำหรับ GLM ของฉันด้วยล็อกลิงค์:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

ฉันจะตีความพารามิเตอร์ได้อย่างไร ถ้าฉันคำนวณexp(coef())แบบจำลองของฉันฉันจะได้รับ ~ 500 สำหรับการสกัดกั้น ตอนนี้ฉันเชื่อว่านั่นไม่ได้หมายถึงรายได้ที่คาดหวังหากตัวแปรอื่น ๆ ทั้งหมดคงที่ใช่ไหม เนื่องจากค่าเฉลี่ยหรือmean(age)อยู่ที่ ~ 2000 นอกจากนี้ฉันไม่มีเงื่อนงำที่จะตีความทิศทางและคุณค่าของสัมประสิทธิ์ covariates


6
500 จะใกล้เคียงกับรายได้ที่คาดหวังหากตัวแปรอื่น ๆ ทั้งหมดเป็นศูนย์อย่างแน่นอน(ไม่ใช่แค่ค่าคงที่) --- เหมือนกับในการถดถอยจริง ๆ
Glen_b

@Glen_b เหตุใดจึงเป็นรายได้ที่คาดว่าจะเกิดขึ้นเมื่อค่าสัมประสิทธิ์เลขชี้กำลังเป็นผลคูณทวีคูณต่อรายได้เมื่อมีการเปลี่ยนแปลงของตัวแปรอธิบาย?
เสื่อทาทามิ

กรณีภายใต้การสนทนาเป็นค่าเฉลี่ยตามเงื่อนไขเมื่อตัวแปรอธิบายทั้งหมดเป็น 0
Glen_b

คำตอบ:


25

ข้อมูลจำเพาะ GLM แกมม่าที่เชื่อมโยงกับบันทึกนั้นเหมือนกับการถดถอยแบบเลขชี้กำลัง:

E[y|x,z]=exp(α+βx+γz)=y^

ซึ่งหมายความว่า ) นั่นไม่ใช่ค่าที่มีความหมายมาก (นอกเสียจากว่าคุณจะให้ตัวแปรอยู่ตรงกลางเป็นศูนย์ก่อน)E[y|x=0,z=0]=exp(α)

มีอย่างน้อยสามวิธีในการตีความแบบจำลองของคุณ สิ่งแรกคือการหาอนุพันธ์ของค่าคาดหวังของได้รับxเทียบกับx :yxx

E[y|x,z]x=exp(α+βx+γz)β=y^β

xzxzy^βxy

x

E[y|z,x=1]E[y|z,x=0]=exp(α+β+γz)exp(α+γz)=exp(α+γz)(exp(β)1)

x

วิธีที่สามคือการยกกำลังสัมประสิทธิ์ โปรดทราบว่า:

E[y|z,x+1]=exp(α+β(x+1)+γz)=exp(α+βx+β+γz)=exp(α+βx+γz)exp(β)=E[y|z,x]exp(β)

ซึ่งหมายความว่าคุณสามารถตีความค่าสัมประสิทธิ์เลขยกกำลังทวีคูณมากกว่าที่จะเพิ่ม พวกมันให้ตัวคูณกับค่าที่คาดหวังเมื่อเปลี่ยนเป็น 1x


1
คุณจะสามารถอธิบายการตีความที่สองได้หรือไม่?
เสื่อทาทามิ

@tatami ฉันแก้ไขข้อผิดพลาดในกรณีไบนารี ตอนนี้มันสมเหตุสมผลมากขึ้นแล้วเหรอ?
Dimitriy V. Masterov

2

ก่อนอื่นฉันจะดูส่วนที่เหลือเพื่อดูว่าแบบจำลองนั้นเข้ากันได้ดีเพียงใด ถ้ามันใช้ได้ฉันจะลองใช้ฟังก์ชั่นลิงค์อื่น ๆ ยกเว้นว่าฉันมีเหตุผลที่เชื่อได้ว่ามันมาจากการกระจายแกมม่า หากแกมม่ายังดูน่าเชื่อถือฉันจะสรุปได้ว่าคำศัพท์ที่สำคัญทางสถิติคือการสกัดกั้นความสูงการศึกษาเพศและโรงเรียนมัธยม (อันที่มีดาวสามดวง) ในหมู่พวกเขาเองไม่มีใครสามารถพูดได้มากกว่านี้เว้นแต่พวกเขาจะได้มาตรฐาน

การตอบกลับความคิดเห็น: ฉันเข้าใจคำถามของคุณดีขึ้นแล้ว คุณสามารถทำสิ่งนั้นได้! การเพิ่มหน่วยความสูงทำให้ exp (0.0082530) -1 ~ = 0.0082530 (โดยใช้ exp x = 1 + x การประมาณสำหรับ x เล็ก) การเปลี่ยนแปลงสัมพัทธ์ในรายได้ ง่ายมากที่จะตีความใช่มั้ย


1
ดังนั้นฉันไม่สามารถตีความพารามิเตอร์เช่นรายได้เพิ่มขึ้นตาม xy หากความสูงเพิ่มขึ้นทีละหนึ่ง?

1
ตอนนี้ฉันเชื่อว่าฉันต้องตีความมันทวีคูณ: exp (สกัดกั้น) * exp (สูง) จะเป็นรายได้ที่มีความสูงเพิ่มขึ้น 1 หน่วย อย่างไรก็ตามขอขอบคุณ! :)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.