ฉันเพิ่งเริ่มเรียนรู้เกี่ยวกับโมเดลเชิงเส้นผสมแบบทั่วไปและใช้ R เพื่อสำรวจความแตกต่างที่ทำให้ปฏิบัติต่อการเป็นสมาชิกกลุ่มเป็นลักษณะพิเศษแบบคงที่หรือแบบสุ่ม โดยเฉพาะฉันกำลังดูชุดข้อมูลตัวอย่างที่กล่าวถึงที่นี่:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
ดังที่อธิบายไว้ในบทช่วยสอนนี้ผลกระทบของ Doctor ID นั้นสามารถมองเห็นได้และฉันคาดหวังว่ารูปแบบผสมกับการสกัดแบบสุ่มเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น อย่างไรก็ตามการเปรียบเทียบค่า AIC สำหรับสองวิธีแนะนำว่ารุ่นนี้แย่กว่า:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
ดังนั้นคำถามของฉันคือ:
(1) เหมาะสมหรือไม่ที่จะเปรียบเทียบค่า AIC ที่ได้รับจากทั้งสองฟังก์ชัน ถ้าเป็นเช่นนั้นทำไมรูปแบบเอฟเฟกต์คงที่ทำได้ดีกว่า
(2) วิธีที่ดีที่สุดในการระบุว่าผลคงที่หรือแบบสุ่มมีความสำคัญมากกว่า (เช่นในการหาปริมาณที่ความแปรปรวนเนื่องจากแพทย์มีความสำคัญมากกว่าลักษณะของผู้ป่วย?
DID
เป็นทั้งเอฟเฟกต์คงที่และการสกัดกั้นแบบสุ่มในรุ่นที่ 2 ยิ่งกว่านั้นการมีมันเป็นเอฟเฟกต์คงที่ในตัวแบบที่ 1 หมายความว่าตัวเลือก b / t ทั้งสองนี้จะเกี่ยวกับวิธีที่จะคิดเกี่ยวกับผลกระทบของDID
มันไม่ใช่ว่าจะต้องรวมอยู่ด้วย ในบันทึกอื่นฉันสังเกตเห็นว่าคุณมีรายการ (2); คุณหมายถึงมีรายการ (1) ที่ไหนสักแห่ง?