ผลกระทบคงที่เทียบกับสุ่ม


10

ฉันเพิ่งเริ่มเรียนรู้เกี่ยวกับโมเดลเชิงเส้นผสมแบบทั่วไปและใช้ R เพื่อสำรวจความแตกต่างที่ทำให้ปฏิบัติต่อการเป็นสมาชิกกลุ่มเป็นลักษณะพิเศษแบบคงที่หรือแบบสุ่ม โดยเฉพาะฉันกำลังดูชุดข้อมูลตัวอย่างที่กล่าวถึงที่นี่:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

ดังที่อธิบายไว้ในบทช่วยสอนนี้ผลกระทบของ Doctor ID นั้นสามารถมองเห็นได้และฉันคาดหวังว่ารูปแบบผสมกับการสกัดแบบสุ่มเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น อย่างไรก็ตามการเปรียบเทียบค่า AIC สำหรับสองวิธีแนะนำว่ารุ่นนี้แย่กว่า:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

ดังนั้นคำถามของฉันคือ:

(1) เหมาะสมหรือไม่ที่จะเปรียบเทียบค่า AIC ที่ได้รับจากทั้งสองฟังก์ชัน ถ้าเป็นเช่นนั้นทำไมรูปแบบเอฟเฟกต์คงที่ทำได้ดีกว่า

(2) วิธีที่ดีที่สุดในการระบุว่าผลคงที่หรือแบบสุ่มมีความสำคัญมากกว่า (เช่นในการหาปริมาณที่ความแปรปรวนเนื่องจากแพทย์มีความสำคัญมากกว่าลักษณะของผู้ป่วย?

คำตอบ:


7

โมเดลเอฟเฟกต์คงที่และโมเดลเอฟเฟกต์แบบสุ่มถามคำถามที่แตกต่างกันของข้อมูล การระบุชุดของตัวแปรจำลองระดับกลุ่มจะควบคุมความหลากหลายของกลุ่มที่ไม่ได้รับการตรวจสอบในการตอบกลับโดยเฉลี่ยแล้วปล่อยให้การประมาณของคุณสะท้อนความแปรปรวนภายในหน่วยเท่านั้น แบบจำลองเอฟเฟกต์แบบสุ่มเริ่มต้นด้วยการสันนิษฐานว่ามีประชากรเมตาดาต้า (ผลใด ๆ ก็ตาม) และตัวอย่างของคุณสะท้อนให้เห็นถึงการดึงดูดจำนวนมากจากประชากรนั้น ดังนั้นแทนที่จะยึดผลลัพธ์ของคุณรอบ ๆ จุดตัดที่ต่างกันข้อมูลของคุณจะถูกนำมาใช้เพื่ออธิบายพารามิเตอร์ของการแจกแจงแบบปกติ (ปกติ) ที่จะดึงข้อมูลของคุณ

มักกล่าวกันว่าแบบจำลองเอฟเฟกต์คงที่นั้นดีสำหรับการทำการอนุมานข้อมูลที่คุณมีและโมเดลเอฟเฟกต์แบบสุ่มนั้นดีสำหรับการพยายามทำการอนุมานประชากรที่มีขนาดใหญ่กว่า

เมื่อฉันเรียนรู้เกี่ยวกับแบบจำลองเอฟเฟกต์คงที่พวกเขามีแรงจูงใจโดยใช้ส่วนประกอบข้อผิดพลาดและข้อมูลแผง ใช้เวลาหลายข้อสังเกตของหน่วยรับและการรักษาแบบสุ่มในเวลาทีเสื้อ

Yผมเสื้อ=αผม+βTผมเสื้อ+εผมเสื้อ

คุณสามารถแบ่งข้อความแสดงข้อผิดพลาดออกเป็นองค์ประกอบของข้อความแสดงข้อผิดพลาดที่แตกต่างกันไปตามเวลาและอีกหนึ่งข้อความที่ไม่:

Yผมเสื้อ=αผม+βTผมเสื้อ+อีผม+ยูผมเสื้อ

ตอนนี้ลบค่าเฉลี่ยกลุ่มจากทั้งสองด้าน:

Yผมเสื้อ-Y¯ผม=αผม-α¯ผม+β(Tผมเสื้อ-T¯ผม)+อีผม-อี¯ผม+ยูผมเสื้อ-ยู¯ผมเสื้อ

สิ่งที่ไม่ได้ถูกห้อยด้วยมาจากสมการด้วยการลบพื้นฐาน - ซึ่งก็คือการบอกว่าค่าเฉลี่ยในช่วงเวลานั้นเหมือนกันทุกครั้งถ้ามันไม่เปลี่ยนแปลง ซึ่งรวมถึงองค์ประกอบที่ไม่แปรผันตามเงื่อนไขข้อผิดพลาดของคุณ ดังนั้นการประมาณการของคุณจะไม่ได้รับการยืนยันโดยความต่างของเวลาที่ไม่เปลี่ยนแปลง เสื้อ

นี้ไม่ได้ค่อนข้างทำงานสำหรับแบบจำลองผลกระทบแบบสุ่ม - ไม่ใช่ของคุณ -indexed ตัวแปรจะไม่ถูก sopped ขึ้นโดยการเปลี่ยนแปลงที่ (ที่ "ภายใน" การเปลี่ยนแปลง) คุณสามารถอนุมานผลของสิ่งต่าง ๆ ที่ไม่ได้อยู่ในกลุ่ม ในโลกแห่งความจริงสิ่งต่าง ๆ มีความสำคัญ ดังนั้นเอฟเฟ็กต์แบบสุ่มจึงเหมาะสำหรับ "การสร้างแบบจำลองข้อมูล" ในขณะที่โมเดลเอฟเฟกต์คงที่นั้นดีสำหรับการเข้าใกล้การประมาณคำศัพท์เฉพาะที่เป็นกลาง ด้วยโมเดลเอฟเฟกต์แบบสุ่มคุณจะไม่สามารถอ้างสิทธิ์เพื่อลบนั้นได้ ทั้งหมดe iเสื้ออีผม

ในตัวอย่างนี้เวลาคือตัวแปรการจัดกลุ่ม ในตัวอย่างของคุณมันคือ DID (เช่น: มันพูดคุยทั่วไป)


1

1) มีความเหมาะสมที่จะทำการเปรียบเทียบไม่ใช่กับทั้งสองรุ่น คุณต้องการเปรียบเทียบ:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

กับ

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

และคุณสามารถทำได้ด้วย anova:

anova(GLM, GLMM)

(ไม่แน่ใจว่าสิ่งนี้จะทำงานกับglmและglmerผลลัพธ์หรือไม่เนื่องจากอาจเป็นวัตถุ R ที่แตกต่างกันคุณอาจต้องใช้สองฟังก์ชันที่มีวัตถุส่งคืนที่เปรียบเทียบได้เช่นlmeและglsหรือทำ anova ด้วยตัวเอง)

χ02χ12

สำหรับผมหนังสือที่ดีที่สุดสำหรับการทำความเข้าใจกระบวนการของการสร้างรูปแบบการซ้อนกันและการทดสอบสมมติฐานที่ได้รับเวสต์เวลส์และ Galecki (2007) เป็น Linear รุ่นผสม: คู่มือการปฏิบัติ พวกเขาผ่านทุกอย่างทีละขั้นตอน

2) หากคุณมีการสังเกตหลายครั้งต่อผู้ป่วยคุณจะต้องเพิ่มเอฟเฟกต์แบบสุ่มสำหรับผู้ป่วยด้วย จากนั้นเพื่อทดสอบความสำคัญสัมพัทธ์ของความอดทนกับแพทย์คุณสามารถดูผลการทำนายของผู้ป่วยเทียบกับผลการทำนายสำหรับแพทย์ คำที่มีผลกระทบแบบสุ่มสำหรับแต่ละคนจะคำนวณปริมาณความแปรปรวนระหว่างผู้ป่วยและระหว่างแพทย์หากเป็นคำถามที่คุณสนใจ

(มีคนโปรดแก้ไขฉันหากฉันผิด!)


ฉันไม่แน่ใจว่ามันสมเหตุสมผลที่จะDIDเป็นทั้งเอฟเฟกต์คงที่และการสกัดกั้นแบบสุ่มในรุ่นที่ 2 ยิ่งกว่านั้นการมีมันเป็นเอฟเฟกต์คงที่ในตัวแบบที่ 1 หมายความว่าตัวเลือก b / t ทั้งสองนี้จะเกี่ยวกับวิธีที่จะคิดเกี่ยวกับผลกระทบของDIDมันไม่ใช่ว่าจะต้องรวมอยู่ด้วย ในบันทึกอื่นฉันสังเกตเห็นว่าคุณมีรายการ (2); คุณหมายถึงมีรายการ (1) ที่ไหนสักแห่ง?
gung - Reinstate Monica

คุณพูดถูก ฉันไปจากสูตร glm ดั้งเดิมของ OP ซึ่งไม่ควรมี DID เป็นเอฟเฟกต์ถาวรในอันดับที่ 1 ขณะนี้ทางเลือกอยู่ระหว่างการปฏิบัติว่า DID เป็นเอฟเฟกต์แบบสุ่มเพิ่มมูลค่าใด ๆ ให้กับโมเดลหรือไม่
Christopher Poile

1

รูปแบบที่แตกต่างกันมาก ตัวแบบ glm กำลังจัดการกับการลดความเบี่ยงเบนโดยรวม (จากแบบจำลองโมฆะ) เมื่อผลกระทบ DoctorID ทั้งหมดได้รับการประเมินและกำลังได้รับการประมาณค่าพารามิเตอร์ คุณสังเกตเห็นว่าแน่นอนว่า Age, Married และ IL6 นั้นมีสถิติ Wald เหมือนกันในสองโมเดลใช่ไหม? ความเข้าใจของฉัน (ไม่ใช่สิ่งที่ฉันจะยอมรับอย่างสูง) คือโมเดลผสมกำลังปฏิบัติต่อแพทย์ IDS ว่าเป็นปัจจัยหรือชั้นที่น่ารำคาญนั่นคือ "เอฟเฟ็กต์" ที่ไม่สามารถสันนิษฐานได้ว่ามาจากการกระจายของผู้ปกครองใด ๆ ฉันไม่เห็นเหตุผลที่จะคิดว่าการใช้ตัวแบบผสมจะช่วยปรับปรุงความเข้าใจของคุณเกี่ยวกับ

หากความสนใจของคุณอยู่ในเอฟเฟ็กต์ของอายุแต่งงานหรือ IL6 ฉันจะจินตนาการว่าคุณจะไม่เปรียบเทียบ AIC กับทั้งสองโมเดล แต่จะเปรียบเทียบความแตกต่างใน AIC ด้วยการเอา covariates ที่น่าสนใจภายในโครงสร้างแบบจำลองเดียวกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.