อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วน?


13

เท่าที่ฉันทราบความแตกต่างระหว่างตัวแบบโลจิสติกและตัวแบบการตอบสนองแบบเศษส่วน (frm) คือตัวแปรตาม (Y) ซึ่ง frm คือ [0,1] แต่โลจิสติกคือ {0, 1} นอกจากนี้ frm ใช้ตัวประมาณค่าความน่าจะเป็นในการกำหนดพารามิเตอร์

โดยปกติเราสามารถใช้เพื่อให้ได้รูปแบบโลจิสติกโดยglmglm(y ~ x1+x2, data = dat, family = binomial(logit))

สำหรับ FRM เราเปลี่ยนไป family = binomial(logit)family = quasibinomial(logit)

ฉันสังเกตเห็นว่าเรายังสามารถใช้family = binomial(logit)เพื่อรับพารามิเตอร์ของ frm เพราะมันให้ค่าประมาณเดียวกัน ดูตัวอย่างต่อไปนี้

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

กลับ

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

และสำหรับfamily = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

กลับ

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

เบต้าโดยประมาณจากทั้งคู่familyจะเหมือนกัน แต่ความแตกต่างคือค่า SE อย่างไรก็ตามเพื่อให้ได้ SE ที่ถูกต้องเราต้องใช้library(sandwich)ในโพสต์นี้

ตอนนี้คำถามของฉัน:

  1. ความแตกต่างระหว่างสองรหัสนี้คืออะไร?
  2. frm กำลังจะได้รับ SE ที่แข็งแกร่งหรือไม่?

หากความเข้าใจของฉันไม่ถูกต้องโปรดให้คำแนะนำ

คำตอบ:


11

หากคำถามของคุณคืออะไรความแตกต่างระหว่างสองรหัสนี้คืออะไร

ดูที่?glmว่าSee family for details of family functionsและดูที่?familyเปิดเผยคำอธิบายต่อไปนี้:

ตระกูล quasibinomial และ quasipoisson แตกต่างจากตระกูลทวินามและปัวซองเฉพาะที่พารามิเตอร์การกระจายไม่ได้รับการแก้ไขที่หนึ่งดังนั้นพวกเขาสามารถจำลองแบบการกระจายตัวมากเกินไป

นี่คือสิ่งที่คุณเห็นในผลลัพธ์ของคุณ และนั่นคือความแตกต่างระหว่างทั้งสองรุ่น / รหัส

หากคำถามของคุณคืออะไรความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วนคืออะไร

เมื่อคุณระบุอย่างถูกต้องโมเดลนั้นจะเป็นโลจิสติกถ้าตัวแปรตามของคุณเป็น 0 หรือ 1 Papke และ Wooldridgeได้แสดงให้เห็นว่าคุณสามารถใช้ GLM ของแบบฟอร์มนี้สำหรับเศษส่วนได้เช่นกันสำหรับการประมาณค่าพารามิเตอร์ แต่คุณต้อง คำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่ง สิ่งนี้ไม่จำเป็นสำหรับการถดถอยโลจิสติกและที่จริงบางคนคิดว่าคุณไม่ควรคำนวณข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพในโมเดล probit / logit แม้ว่านี่จะเป็นข้อถกเถียงที่ต่างออกไป

พื้นฐานทางทฤษฎีมาจากบทความที่มีชื่อเสียงโดยGourieroux, Monfort และ Trognonใน Econometrica ในปี 1984 พวกเขาแสดงให้เห็นว่า (ภายใต้เงื่อนไขปกติบางอย่าง ฯลฯ ) พารามิเตอร์ความน่าจะเป็นสูงสุดที่ได้รับจากการเพิ่มความน่าจะเป็นของครอบครัวเชิงเส้นเชิงเส้นเป็นการประมาณค่าที่สอดคล้องกันสำหรับพารามิเตอร์ที่เป็นโอกาสอื่น ๆ ดังนั้นในบางแง่มุมเรากำลังใช้การกระจายโลจิสติกที่นี่แม้ว่ามันจะไม่ถูกต้อง แต่พารามิเตอร์ยังคงสอดคล้องกับพารามิเตอร์ที่เราต้องการได้รับ ดังนั้นหากคำถามของคุณมาจากการสังเกตว่าเราใช้ฟังก์ชันโอกาสเดียวกันในการประเมินทั้งแบบจำลองการตอบสนองโลจิสติกส์และเศษส่วนยกเว้นว่าเราแลกเปลี่ยนธรรมชาติของตัวแปรตามแล้วนี่คือสัญชาตญาณ


เราจะวัดประสิทธิภาพ frm ได้อย่างไร? เราสามารถใช้ MSE เช่นการถดถอยเชิงเส้นได้หรือไม่?
มือใหม่

1
นั่นเป็นคำถามที่แตกต่างกันมาก กรุณาโพสต์มันเป็นใหม่
coffeinjunky
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.