ทำไมฉันถึงได้รับผลต่างแบบไม่มีศูนย์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมของฉันแม้ว่าข้อมูลจะมีการเปลี่ยนแปลงบ้าง


22

เราได้เรียกใช้การถดถอยโลจิสติกเอฟเฟ็กต์แบบผสมโดยใช้ไวยากรณ์ต่อไปนี้

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

หัวเรื่องและรายการเป็นเอฟเฟกต์แบบสุ่ม เราได้ผลลัพธ์ที่แปลกซึ่งมีค่าสัมประสิทธิ์และความเบี่ยงเบนมาตรฐานสำหรับเทอมที่เป็นทั้งคู่

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

สิ่งนี้ไม่ควรเกิดขึ้นเพราะเห็นได้ชัดว่ามีการแปรผันของอาสาสมัคร เมื่อเราทำการวิเคราะห์แบบเดียวกันใน stata

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

ผลลัพธ์เป็นไปตามที่คาดหวังด้วยค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์ / se สำหรับคำศัพท์หัวเรื่อง

ในขั้นต้นเราคิดว่านี่อาจเป็นสิ่งที่เกี่ยวข้องกับการเขียนคำศัพท์เรื่อง แต่การเปลี่ยนจากสตริงเป็นจำนวนเต็มนั้นไม่ได้สร้างความแตกต่างเลย

เห็นได้ชัดว่าการวิเคราะห์ทำงานไม่ถูกต้อง แต่เราไม่สามารถระบุสาเหตุของปัญหาได้ (NB คนอื่นในฟอรั่มนี้ประสบปัญหาที่คล้ายกัน แต่กระทู้นี้ยังคงลิงก์ไปยังคำถามที่ยังไม่ได้ตอบ)


2
คุณบอกว่าสิ่งนี้ไม่ควรเกิดขึ้นเพราะ "เห็นได้ชัดว่ามีการเปลี่ยนแปลงในอาสาสมัคร" แต่เนื่องจากเราไม่ทราบว่าอะไรsubjectคืออะไรหรืออย่างอื่นเกี่ยวกับตัวแปรเหล่านี้มันจึงไม่ "ชัดเจน" สำหรับเรา "! สำหรับคำศัพท์ "จากการวิเคราะห์ Stata ของคุณคือ 7.18e-07 ฉันเดาว่าทางเทคนิคแล้วมันคือ" ไม่เป็นศูนย์ "แต่ก็ไม่ไกลจาก 0 เช่นกัน ... !
smillig

ขอบคุณมากสำหรับการสังเกต วิชาเป็นผู้เข้าร่วมในการศึกษาและมีความผูกพันที่จะเปลี่ยนแปลงในการทำงาน คะแนนเฉลี่ยอยู่ที่ 39% ถูกต้องโดยมีค่าเบี่ยงเบนมาตรฐาน 11% ฉันคาดหวังว่าสิ่งนี้จะปรากฏมากกว่า 0.000 ในสถิติที่รายงาน แต่อาจผิด ใช่แน่นอน 7.18e-07 เทียบเท่ากับ 0.000 และ 0.000 ไม่จำเป็นต้องเป็นศูนย์
นิคริชเชส

1
แต่ละกลุ่มทดสอบ / ตัวอย่างกี่ครั้ง โดยไม่ทราบแง่มุมที่สำคัญของงานวิจัยของคุณถ้า Stata บอกคุณว่ารูปแบบภายในวิชานั้นคือ 0.000000718 (มีข้อผิดพลาดมาตรฐาน 0.378) และ R บอกคุณว่ามันคือ 0.000 ไม่ใช่เรื่องราวที่นี่ไม่มีการเปลี่ยนแปลงใด ๆ ในระดับวิชา? นอกจากนี้โปรดทราบว่า Stata ไม่ได้ให้ช่วงความมั่นใจกับคุณสำหรับรูปแบบที่เปลี่ยนแปลง
smillig

ขอบคุณอีกครั้งสำหรับความคิดเห็น กลุ่มตัวอย่างได้รับการทดสอบ 11 ครั้ง ฉันเดาว่านี่หมายความว่าเมื่อมีการคำนึงถึงผลกระทบของกลุ่มและไอเท็มจะมีความแตกต่างกันเล็กน้อยในผู้เข้าร่วม ดูเหมือนว่าจะเป็น "ผู้ต้องสงสัย" แต่ฉันคิดว่ามีความสอดคล้องกันในการวิเคราะห์สองแบบที่แตกต่างกันใช่ไหม
Nick Riches

ที่เกี่ยวข้อง: stats.stackexchange.com/questions/34969
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


27

เรื่องนี้จะกล่าวถึงในบางช่วงเวลาที่https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html (ค้นหา "รุ่นเอกพจน์"); เป็นเรื่องปกติโดยเฉพาะอย่างยิ่งเมื่อมีกลุ่มจำนวนน้อย (แม้ว่า 30 กลุ่มจะไม่เล็กในบริบทนี้)

หนึ่งความแตกต่างระหว่างlme4และแพคเกจอื่น ๆ อีกมากมายที่เป็นแพคเกจจำนวนมากรวมทั้งlme4ของบรรพบุรุษnlme, การจัดการความจริงที่ว่าประมาณการความแปรปรวนจะต้องไม่เป็นลบโดยการปรับความแปรปรวนโยบันทึก: หมายถึงว่าการประมาณการความแปรปรวนไม่สามารถจะตรงศูนย์เพียงมาก ขนาดเล็กมาก. lme4ในทางตรงกันข้ามใช้การปรับให้เหมาะสมแบบ จำกัด ดังนั้นจึงสามารถคืนค่าที่เป็นศูนย์ได้อย่างแน่นอน (ดูhttp://arxiv.org/abs/1406.5823หน้า 24 สำหรับการสนทนาเพิ่มเติม) http://rpubs.com/bbolker/6226ยกตัวอย่าง

โดยเฉพาะอย่างยิ่งเมื่อดูผลการแปรปรวนของคุณจาก Stata อย่างใกล้ชิดคุณมีค่าประมาณ 7.18e-07 (เทียบกับการสกัดกั้นของ -3.4) โดยมีค่าเบี่ยงเบนมาตรฐานของ Wald เท่ากับ. 3783434 (ไร้ประโยชน์ในกรณีนี้!) และ 95% CI ระบุว่าเป็น "0"; นี่คือเทคนิค "ไม่เป็นศูนย์" แต่มันใกล้เคียงกับศูนย์ตามที่โปรแกรมจะรายงาน ...

เป็นที่รู้จักกันดีและพิสูจน์ได้ในทางทฤษฎี (เช่น Stram และ Lee Biometrics 1994) ว่าการแจกแจงโมฆะสำหรับองค์ประกอบความแปรปรวนเป็นส่วนผสมของมวลจุด ('เข็ม') ที่ศูนย์และการกระจายไคสแควร์ห่างจากศูนย์ แปลกใจ (แต่ฉันไม่รู้ว่ามันพิสูจน์แล้วหรือเป็นที่รู้จักกันดี) การกระจายตัวตัวอย่างของการประมาณองค์ประกอบความแปรปรวนมักจะมีค่าที่ศูนย์ถึงแม้ว่าค่าจริงไม่ได้เป็นศูนย์ - ดูเช่นhttp://rpubs.com/ bbolker / 4187สำหรับตัวอย่างหรือตัวอย่างสุดท้ายใน?bootMerหน้า:

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

ป้อนคำอธิบายรูปภาพที่นี่


2
+1 คำตอบที่ดีอีกข้อหนึ่งอยู่ในชุดข้อความของน้องสาว: stats.stackexchange.com/a/34979 (ฉันจะทิ้งลิงค์นี้ไว้สำหรับผู้อ่านในอนาคต)
อะมีบาพูดว่า Reinstate Monica

13

ฉันไม่คิดว่ามีปัญหา บทเรียนจากผลลัพธ์ของแบบจำลองคือแม้ว่าจะมีการเปลี่ยนแปลงที่เห็นได้ชัดในประสิทธิภาพของวิชา แต่ขอบเขตของการแปรของเรื่องนี้สามารถอธิบายได้อย่างเต็มที่ มีความแปรปรวนระดับหัวเรื่องเพิ่มเติมไม่เพียงพอที่จะรับประกันการเพิ่มเอฟเฟกต์แบบสุ่มระดับหัวเรื่องเพิ่มเติมเพื่ออธิบายการเปลี่ยนแปลงทั้งหมดที่สังเกต

คิดแบบนี้ ลองจินตนาการว่าเรากำลังจำลองข้อมูลการทดลองภายใต้กระบวนทัศน์เดียวกันนี้ เราตั้งค่าพารามิเตอร์เพื่อให้มีการเปลี่ยนแปลงที่เหลืออยู่บนพื้นฐานของการทดลองโดยการทดลอง แต่การเปลี่ยนแปลงระดับ 0 เรื่อง (เช่นทุกวิชามี "ค่าเฉลี่ยจริง" บวกข้อผิดพลาดเดียวกัน) ตอนนี้ทุกครั้งที่เราจำลองข้อมูลจากชุดพารามิเตอร์นี้เราจะพบว่าวิชานั้นมีประสิทธิภาพไม่เท่ากัน จบลงด้วยคะแนนต่ำบางคนมีคะแนนสูง แต่ทั้งหมดนี้เป็นเพราะการเปลี่ยนแปลงระดับการทดลองที่เหลือ เรา "รู้" (โดยอาศัยการกำหนดพารามิเตอร์การจำลอง) ว่าไม่มีการเปลี่ยนแปลงระดับหัวเรื่องใด ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.