ช่วยตีความการนับข้อมูล GLMM โดยใช้ lme4 glmer และ glmer.nb - ทวินามลบกับปัวซอง


9

ฉันมีคำถามบางอย่างเกี่ยวกับข้อกำหนดและการตีความของ GLMM มี 3 คำถามที่แน่นอนทางสถิติและอีก 2 คำถามเกี่ยวกับอาร์ฉันกำลังโพสต์ที่นี่เพราะท้ายที่สุดฉันคิดว่าปัญหาคือการตีความผลลัพธ์ของ GLMM

ฉันกำลังพยายามที่จะติดตั้ง GLMM ฉันใช้ข้อมูลการสำรวจสำมะโนประชากรสหรัฐจากฐานข้อมูลระบบทางเดินยาว ข้อสังเกตของฉันคือการสำรวจสำมะโนประชากร ตัวแปรตามของฉันคือจำนวนหน่วยที่พักอาศัยที่ว่างและฉันสนใจในความสัมพันธ์ระหว่างตำแหน่งว่างและตัวแปรทางเศรษฐกิจและสังคม ตัวอย่างที่นี่นั้นง่ายเพียงแค่ใช้เอฟเฟ็กต์คงที่สองตัวเลือก: เปอร์เซ็นต์ของประชากรที่ไม่ใช่คนผิวขาว ฉันต้องการรวมเอฟเฟกต์แบบซ้อนสองแบบไว้ด้วยกัน: ผืนผ้าภายในทศวรรษและทศวรรษเช่น (ทศวรรษ / ผืน) ฉันกำลังพิจารณาแบบสุ่มเหล่านี้ในความพยายามที่จะควบคุมพื้นที่ (เช่นระหว่างผืน) และชั่วขณะ (เช่นระหว่างทศวรรษ) autocorrelation อย่างไรก็ตามฉันสนใจทศวรรษที่ผ่านมาเป็นผลกระทบคงที่ดังนั้นฉันจึงรวมมันเป็นปัจจัยคงที่เช่นกัน

เนื่องจากตัวแปรอิสระของฉันคือตัวแปรนับจำนวนเต็มที่ไม่เป็นลบฉันจึงพยายามใส่ปัวซองและลบทวินาม GLMM ฉันใช้บันทึกของหน่วยที่อยู่อาศัยทั้งหมดเพื่อชดเชย ซึ่งหมายความว่าค่าสัมประสิทธิ์ถูกตีความว่าเป็นผลกระทบต่ออัตราตำแหน่งที่ว่างไม่ใช่จำนวนบ้านที่ว่างทั้งหมด

ฉันกำลังมีผลสำหรับ Poisson และลบทวินาม GLMM ประมาณโดยใช้ glmer และ glmer.nb จากlme4 การตีความค่าสัมประสิทธิ์ทำให้ฉันรู้สึกว่าขึ้นอยู่กับความรู้ของฉันของข้อมูลและพื้นที่การศึกษา

ถ้าคุณต้องการให้ข้อมูลและสคริปต์พวกเขาอยู่ในของฉันGithub สคริปต์นี้มีการสืบสวนเชิงพรรณนามากกว่าที่ฉันเคยทำก่อนสร้างแบบจำลอง

นี่คือผลลัพธ์ของฉัน:

โมเดลปัวซอง

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: poisson  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34520.1  34580.6 -17250.1  34500.1     3132 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24211 -0.10799 -0.00722  0.06898  0.68129 

Random effects:
 Groups         Name        Variance Std.Dev.
 TRTID10:decade (Intercept) 0.4635   0.6808  
 decade         (Intercept) 0.0000   0.0000  
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612242   0.028904 -124.98  < 2e-16 ***
decade1980       0.302868   0.040351    7.51  6.1e-14 ***
decade1990       1.088176   0.039931   27.25  < 2e-16 ***
decade2000       1.036382   0.039846   26.01  < 2e-16 ***
decade2010       1.345184   0.039485   34.07  < 2e-16 ***
P_NONWHT         0.175207   0.012982   13.50  < 2e-16 ***
a_hinc          -0.235266   0.013291  -17.70  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009876    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.727  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.714  0.511  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.155  0.035 -0.134 -0.129  0.003  0.155   -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)

แบบจำลองทวินามลบ

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: Negative Binomial(25181.5)  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34522.1  34588.7 -17250.1  34500.1     3131 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24213 -0.10816 -0.00724  0.06928  0.68145 

Random effects:
 Groups         Name        Variance  Std.Dev. 
 TRTID10:decade (Intercept) 4.635e-01 6.808e-01
 decade         (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612279   0.028946 -124.79  < 2e-16 ***
decade1980       0.302897   0.040392    7.50 6.43e-14 ***
decade1990       1.088211   0.039963   27.23  < 2e-16 ***
decade2000       1.036437   0.039884   25.99  < 2e-16 ***
decade2010       1.345227   0.039518   34.04  < 2e-16 ***
P_NONWHT         0.175216   0.012985   13.49  < 2e-16 ***
a_hinc          -0.235274   0.013298  -17.69  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009879    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.728  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.715  0.512  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.154  0.035 -0.134 -0.129  0.003  0.155   -0.233

การทดสอบ Poisson DHARMa

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more

การทดสอบทวินามลบ DHARMa

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more

แปลง DHARMa

Poisson

พล็อตเตอร์รุ่น DHARMa

ทวินามลบ

รูปแบบลบทวินาม DHARMa พล็อต

คำถามสถิติ

เนื่องจากฉันยังคงหา GLMM ได้ฉันรู้สึกไม่มั่นใจเกี่ยวกับข้อมูลจำเพาะและการตีความ ฉันมีคำถาม:

  1. ดูเหมือนว่าข้อมูลของฉันไม่สนับสนุนการใช้โมเดลปัวซองและดังนั้นฉันจึงดีกว่าด้วยทวินามลบ อย่างไรก็ตามฉันได้รับคำเตือนอย่างสม่ำเสมอว่าโมเดลทวินามลบของฉันมีค่าถึงการทำซ้ำถึงแม้ว่าฉันจะเพิ่มขีด จำกัด สูงสุด "ใน theta.ml (Y, mu, weights = object @ resp $ weights, limit = limit,: ถึงขีด จำกัด การทำซ้ำ" สิ่งนี้เกิดขึ้นโดยใช้ข้อกำหนดที่แตกต่างกันเล็กน้อย (เช่นแบบจำลองเล็กน้อยและสูงสุดสำหรับเอฟเฟกต์ถาวรและสุ่ม) ฉันได้ลองลบค่าผิดปกติในการติดตามของฉันด้วย (ขั้นต้นฉันรู้!) เนื่องจากค่าสูงสุด 1% ของค่าเป็นค่าผิดปกติมาก (ช่วงล่าง 99% อยู่ระหว่าง 0-1012, สูงสุด 1% จาก 1013-5213) นั่นก็ไม่ใช่ ' ไม่มีผลใด ๆ กับการวนซ้ำและมีผลต่อค่าสัมประสิทธิ์น้อยมากเช่นกันฉันไม่ได้รวมรายละเอียดเหล่านี้ไว้ที่นี่ ค่าสัมประสิทธิ์ระหว่างปัวซองและทวินามลบก็คล้ายกันเช่นกัน การขาดคอนเวอร์เจนซ์นี้เป็นปัญหาหรือไม่? แบบจำลองทวินามลบเป็นแบบที่ดีหรือไม่? ฉันยังใช้โมเดลทวินามลบเชิงลบด้วยAllFitและไม่ใช่เครื่องมือเพิ่มประสิทธิภาพทั้งหมดโยนคำเตือนนี้ (bobyqa, Nelder Mead และ nlminbw ไม่ได้)

  2. ความแปรปรวนของเอฟเฟกต์คงที่ในทศวรรษของฉันนั้นต่ำมากหรือ 0 ฉันเข้าใจว่านี่อาจหมายความว่าโมเดลนั้นมีความเหมาะสม การเปลี่ยนทศวรรษจากเอฟเฟกต์ถาวรเพิ่มความแปรปรวนของเอฟเฟกต์ทศวรรษเป็น 0.2620 และไม่มีผลต่อสัมประสิทธิ์ผลคงที่มากนัก มีอะไรผิดปกติหรือไม่ถ้าปล่อยไว้ ฉันตีความได้ดีเพราะไม่จำเป็นต้องอธิบายความแตกต่างระหว่างการสังเกตการณ์

  3. ผลลัพธ์เหล่านี้บ่งชี้ว่าฉันควรลองแบบจำลองที่ไม่มีการพองเกินจริงหรือไม่? DHARMa ดูเหมือนว่าจะไม่เป็นปัญหาเงินเฟ้อ หากคุณคิดว่าฉันควรลองดูด้านล่าง

คำถาม R

  1. ฉันยินดีที่จะลองใช้แบบจำลองที่มีค่าเป็นศูนย์ แต่ฉันไม่แน่ใจว่าผลกระทบของแพคเกจแบบซ้อนใด ๆ สำหรับปัวซองที่มีค่าเป็นศูนย์สูงเกินและค่าลบแบบทวินามลบ GLMM ฉันจะใช้ glmmADMB เพื่อเปรียบเทียบ AIC กับรุ่นที่ไม่ต้องจ่ายค่าศูนย์ แต่มันถูก จำกัด ให้ใช้เอฟเฟกต์แบบสุ่มเพียงอย่างเดียวจึงไม่สามารถใช้งานกับรุ่นนี้ได้ ฉันสามารถลอง MCMCglmm แต่ฉันไม่ทราบสถิติของ Bayesian เพื่อที่จะไม่น่าสนใจ ตัวเลือกอื่น ๆ ?

  2. ฉันสามารถแสดงค่าสัมประสิทธิ์แบบเอ็กซ์โพเนนเชียลภายในการสรุป (รุ่น) หรือฉันต้องทำนอกการสรุปตามที่ฉันทำไว้ที่นี่หรือไม่?


1
(2) เป็นเรื่องง่าย: การมีdecadeทั้งแบบคงที่และแบบสุ่มไม่สมเหตุสมผล มีทั้งแบบคงที่และรวม(1 | decade:TRTID10)เป็นแบบสุ่มเท่านั้น(ซึ่งเทียบเท่ากับการ(1 | TRTID10)สมมติว่าคุณTRTID10ไม่มีระดับเดียวกันมาหลายสิบปี) หรือลบออกจากเอฟเฟกต์คงที่ มีเพียง 4 ระดับเท่านั้นที่คุณจะแก้ไขได้ดีกว่า: คำแนะนำทั่วไปคือให้พอดีกับเอฟเฟกต์แบบสุ่มหากมี 5 ระดับขึ้นไป
อะมีบา

1
นอกจากนั้นแปลงสองแปลงของคุณยังเหมือนกัน
อะมีบา

1
เกี่ยวกับคำเตือนการบรรจบกัน - คุณพูดใน (1) ว่าคุณลองใช้bobyqaเครื่องมือเพิ่มประสิทธิภาพและไม่ได้ทำการเตือนใด ๆ แล้วปัญหาคืออะไร bobyqaใช้เพียงแค่
อะมีบา

1
อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมคุณถึงพูดว่า "ดูเหมือนว่าข้อมูลของฉันไม่สนับสนุนการใช้โมเดลปัวซอง"
อะมีบา

1
จากประสบการณ์ของฉันbobyqaมาบรรจบกันดีกว่าเครื่องมือเพิ่มประสิทธิภาพเริ่มต้น (และฉันคิดว่าฉันอ่านบางที่ว่ามันจะกลายเป็นค่าเริ่มต้นในรุ่นอนาคตlme4) bobyqaผมไม่คิดว่าคุณจะต้องกังวลเกี่ยวกับการที่ไม่ได้บรรจบกับเพิ่มประสิทธิภาพเริ่มต้นถ้ามันไม่บรรจบกับ
อะมีบา

คำตอบ:


10

ฉันเชื่อว่ามีปัญหาที่สำคัญบางอย่างที่ต้องจัดการกับการประเมินของคุณ

จากสิ่งที่ฉันรวบรวมโดยการตรวจสอบข้อมูลของคุณหน่วยงานของคุณไม่ได้ถูกจัดกลุ่มตามพื้นที่ทางภูมิศาสตร์เช่นพื้นที่สำรวจสำมะโนประชากรภายในเขต ดังนั้นการใช้ผืนดินเป็นปัจจัยในการจัดกลุ่มจึงไม่เหมาะสมในการบันทึกความแตกต่างเชิงพื้นที่เนื่องจากหมายความว่าคุณมีจำนวนบุคคลเท่ากันเป็นกลุ่ม (หรือใช้วิธีอื่นกลุ่มของคุณทั้งหมดมีการสังเกตเพียงครั้งเดียว) การใช้กลยุทธ์การสร้างแบบจำลองหลายระดับช่วยให้เราสามารถประเมินความแปรปรวนแต่ละระดับในขณะที่การควบคุมความแปรปรวนระหว่างกลุ่ม เนื่องจากกลุ่มของคุณมีแต่ละคนเพียงคนเดียวความแปรปรวนระหว่างกลุ่มของคุณจึงเหมือนกับความแปรปรวนระดับบุคคลของคุณดังนั้นการเอาชนะวัตถุประสงค์ของวิธีการหลายระดับ

ในทางกลับกันปัจจัยการจัดกลุ่มสามารถแสดงการวัดซ้ำ ๆ เมื่อเวลาผ่านไป ตัวอย่างเช่นในกรณีของการศึกษาระยะยาวคะแนน "คณิตศาสตร์" ของแต่ละคนอาจได้รับการแก้ไขทุกปีดังนั้นเราจะมีค่ารายปีสำหรับนักเรียนแต่ละคนเป็นเวลา n ปี (ในกรณีนี้ปัจจัยการจัดกลุ่มเป็นนักเรียนเช่นเดียวกับเรา จำนวนการสังเกต "ซ้อน" ภายในนักเรียน) decadeในกรณีของคุณคุณมีมาตรการของระบบทางเดินสำรวจสำมะโนประชากรแต่ละซ้ำ ดังนั้นคุณสามารถใช้TRTID10ตัวแปรของคุณเป็นปัจจัยการจัดกลุ่มเพื่อจับ "ระหว่างความแปรปรวนทศวรรษ" สิ่งนี้นำไปสู่การสังเกตการณ์ 3142 ซ้อนกันใน 635 ผืนโดยมีการสำรวจประมาณ 4 และ 5 ครั้งต่อการสำรวจสำมะโนประชากร

ตามที่ระบุไว้ในความคิดเห็นโดยใช้decadeเป็นปัจจัยการจัดกลุ่มไม่เหมาะสมมากในขณะที่คุณมีเพียงประมาณ 5 ทศวรรษที่ผ่านมาสำหรับการสำรวจสำมะโนประชากรในแต่ละครั้งและผลของพวกเขาสามารถจับภาพที่ดีขึ้นแนะนำdecadeเป็นตัวแปรร่วม

ประการที่สองเพื่อตรวจสอบว่าข้อมูลของคุณควรเป็นแบบจำลองโดยใช้แบบจำลองปัวซองหรือแบบทวินามลบ (หรือวิธีการพองตัวเป็นศูนย์) พิจารณาจำนวนข้อมูลที่เกินกำหนดในข้อมูลของคุณ ลักษณะพื้นฐานของการแจกแจงปัวซงนั้นมีค่าเท่ากันหมายถึงค่าเฉลี่ยเท่ากับความแปรปรวนของการแจกแจง เมื่อดูข้อมูลของคุณแล้วมันค่อนข้างชัดเจนว่ามีการกระจายข้อมูลมากเกินไป ผลต่างนั้นยิ่งใหญ่กว่าค่าเฉลี่ย

library(dplyr)    
 dispersionstats <- scaled.mydata %>%
 + group_by(decade) %>%
 + summarise(
 + means = mean(R_VAC),
 + variances = var(R_VAC),
 + ratio = variances/means)

##   dispersionstats
##   # A tibble: 5 x 5
##   decade     means variances     ratio 
##    <int>     <dbl>     <dbl>     <dbl> 
## 1   1970  45.43513   4110.89  90.47822 
## 2   1980 103.52365  17323.34 167.33707 
## 3   1990 177.68038  62129.65 349.67087 
## 4   2000 190.23150  91059.60 478.67784 
## 5   2010 247.68246 126265.60 509.78821 

อย่างไรก็ตามเพื่อพิจารณาว่าลบทวินามนั้นมีความเหมาะสมทางสถิติมากกว่าหรือไม่วิธีมาตรฐานคือการทดสอบอัตราส่วนความน่าจะเป็นระหว่างปัวซองและแบบจำลองทวินามลบ

library(MASS)
library(lmtest)

modelformula <- formula(R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln))

poismodel <- glm(modelformula, data = scaled.mydata, family = "poisson")   
nbmodel <- glm.nb(modelformula, data = scaled.mydata)

lrtest(poismodel, nbmodel)

## Likelihood ratio test

##  Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)  
## Model 2: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
##   #Df  LogLik Df  Chisq Pr(>Chisq)
## 1   8 -154269
## 2   9  -17452  1 273634  < 2.2e-16 ***
##  ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

หลังจากสร้างสิ่งนี้แล้วการทดสอบครั้งต่อไปอาจพิจารณาได้ว่าวิธีการหลายระดับ (แบบผสม) รับประกันโดยใช้วิธีการที่คล้ายกันซึ่งแสดงให้เห็นว่ารุ่นหลายระดับนั้นเหมาะสมกว่าหรือไม่ (การทดสอบที่คล้ายกันสามารถนำมาใช้เพื่อเปรียบเทียบแบบจำลองความพอดีได้โดยสมมติการกระจายแบบปัวซองกับวัตถุแบบ glmer.nb ตราบใดที่แบบจำลองนั้นเหมือนกัน)

library(lme4)

glmmformula <- update(modelformula, . ~ . + (1|TRTID10))

nbglmm <- glmer.nb(glmmformula, data = scaled.mydata)

lrtest(nbmodel, nbglmm)

## Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
## Model 2: R_VAC ~ factor(decade) + P_NONWHT + a_hinc + (1 | TRTID10) +
##     P_NONWHT:a_hinc + offset(HU_ln)
##   #Df LogLik Df Chisq Pr(>Chisq)
## 1   9 -17452
## 2  10 -17332  1 239.3  < 2.2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

เกี่ยวกับการประมาณการของปัวซองและ nb แบบพวกเขาคาดว่าจริง ๆ แล้วจะคล้ายกันมากกับความแตกต่างที่สำคัญคือข้อผิดพลาดมาตรฐานคือถ้ามีการกระจายเกินปกติรุ่นปัวซองมีแนวโน้มที่จะให้ข้อผิดพลาดมาตรฐานลำเอียง นำข้อมูลของคุณเป็นตัวอย่าง:

poissonglmm <- glmer(glmmformula, data = scaled.mydata)
summary(poissonglmm)

## Random effects:
##  Groups  Name        Variance Std.Dev.
## TRTID10 (Intercept) 0.2001   0.4473
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.876013   0.020602 -139.60   <2e-16 ***
## factor(decade)1980  0.092597   0.007602   12.18   <2e-16 ***
## factor(decade)1990  0.903543   0.007045  128.26   <2e-16 ***
## factor(decade)2000  0.854821   0.006913  123.65   <2e-16 ***
## factor(decade)2010  0.986126   0.006723  146.67   <2e-16 ***
## P_NONWHT           -0.125500   0.014007   -8.96   <2e-16 ***
## a_hinc             -0.107335   0.001480  -72.52   <2e-16 ***
## P_NONWHT:a_hinc     0.160937   0.003117   51.64   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

summary(nbglmm)
## Random effects:
##  Groups  Name        Variance Std.Dev.
##  TRTID10 (Intercept) 0.09073  0.3012
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.797861   0.056214  -49.77  < 2e-16 ***
## factor(decade)1980  0.118588   0.039589    3.00  0.00274 **
## factor(decade)1990  0.903440   0.038255   23.62  < 2e-16 ***
## factor(decade)2000  0.843949   0.038172   22.11  < 2e-16 ***
## factor(decade)2010  1.068025   0.037376   28.58  < 2e-16 ***
## P_NONWHT            0.020012   0.089224    0.22  0.82253
## a_hinc             -0.129094   0.008109  -15.92  < 2e-16 ***
## P_NONWHT:a_hinc     0.149223   0.018967    7.87 3.61e-15 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ขอให้สังเกตว่าการประมาณค่าสัมประสิทธิ์คล้ายกันมากความแตกต่างหลักเป็นเพียงความสำคัญของหนึ่งใน covariates ของคุณเช่นเดียวกับความแตกต่างในความแปรปรวนของเอฟเฟกต์แบบสุ่มซึ่งแสดงให้เห็นว่าความแปรปรวนระดับหน่วยที่จับโดยพารามิเตอร์ แบบจำลอง ( thetaค่าในวัตถุ glmer.nb) จับความแปรปรวนทางเดินบางส่วนที่จับโดยเอฟเฟกต์แบบสุ่ม

เกี่ยวกับสัมประสิทธิ์ exponentiated (และช่วงความเชื่อมั่นที่เกี่ยวข้อง) คุณสามารถใช้ต่อไปนี้:

fixed <- fixef(nbglmm)
confnitfixed <- confint(nbglmm, parm = "beta_", method = "Wald") # Beware: The Wald method is less accurate but much, much faster.

# The exponentiated coefficients are also known as Incidence Rate Ratios (IRR)
IRR <- exp(cbind(fixed, confintfixed)
IRR
##                         fixed      2.5 %     97.5 %
## (Intercept)        0.06094028 0.05458271 0.06803835
## factor(decade)1980 1.12590641 1.04184825 1.21674652
## factor(decade)1990 2.46807856 2.28979339 2.66024515
## factor(decade)2000 2.32553168 2.15789585 2.50619029
## factor(decade)2010 2.90962703 2.70410073 3.13077444
## P_NONWHT           1.02021383 0.85653208 1.21517487
## a_hinc             0.87889172 0.86503341 0.89297205
## P_NONWHT:a_hinc    1.16093170 1.11856742 1.20490048

ความคิดสุดท้ายเกี่ยวกับอัตราเงินเฟ้อเป็นศูนย์ ไม่มีการนำไปใช้หลายระดับ (อย่างน้อยที่ฉันรู้) ของปัวซองพองหรือแบบจำลองเนิร์นที่ศูนย์ที่อนุญาตให้คุณระบุสมการสำหรับองค์ประกอบที่สูงเกินศูนย์ของส่วนผสม glmmADMBรูปแบบช่วยให้คุณสามารถประเมินคงพารามิเตอร์ศูนย์เงินเฟ้อ ทางเลือกอื่นคือใช้zeroinflฟังก์ชั่นในpsclแพ็คเกจแม้ว่ามันจะไม่รองรับรุ่นหลายระดับ ดังนั้นคุณสามารถเปรียบเทียบความพอดีของทวินามลบในระดับเดียวกับระดับทวินามลบศูนย์ที่สูงเกินจริงได้ โอกาสที่ว่าถ้าอัตราเงินเฟ้อเป็นศูนย์ไม่มีนัยสำคัญสำหรับแบบจำลองระดับเดียวอาจเป็นไปได้ว่าจะไม่มีนัยสำคัญสำหรับข้อกำหนดหลายระดับ

ภาคผนวก

หากคุณมีความกังวลเกี่ยวกับความสัมพันธ์เชิงพื้นที่อัตโนมัติคุณสามารถควบคุมสิ่งนี้ได้โดยใช้การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์บางรูปแบบ (แม้ว่าฉันเชื่อว่าสิ่งนี้ใช้ข้อมูลจุดไม่ใช่พื้นที่) หรือคุณสามารถจัดกลุ่มสถานที่สำรวจสำมะโนประชากรของคุณด้วยปัจจัยการจัดกลุ่มเพิ่มเติม (รัฐมณฑล) และรวมสิ่งนี้ไว้เป็นเอฟเฟกต์แบบสุ่ม สุดท้ายและฉันไม่แน่ใจว่าสิ่งนี้เป็นไปได้ทั้งหมดอาจเป็นไปได้ที่จะรวมการพึ่งพาเชิงพื้นที่โดยใช้ตัวอย่างเช่นการนับเฉลี่ยของR_VACเพื่อนบ้านลำดับแรกเป็นโควาเรีย ไม่ว่าในกรณีใดก่อนที่จะมีวิธีการดังกล่าวมันก็สมเหตุสมผลที่จะตรวจสอบว่ามีความสัมพันธ์เชิงพื้นที่ (sporial autocorrelation) อยู่หรือไม่ (ใช้ Global Moran I, การทดสอบ LISA


1
brmsสามารถใส่โมเดลทวินามลบเชิงลบที่ไม่พองได้ด้วยเอฟเฟกต์แบบสุ่ม
Andrew M

@prestevez และ @Andrew นี้มีประโยชน์มาก! มันได้ชี้แจงปัญหามากมายที่ฉันมี ขอบคุณที่สละเวลาพาฉันผ่านมันไป ฉันจะลองปรับรูปแบบผสม zinb จากbrmsและเปรียบเทียบกับรุ่น glmer.nb ตามที่อธิบายไว้ข้างต้น ฉันจะลองรวมถึงสถานที่ที่กำหนดโดยการสำรวจสำมะโนประชากร (โดยทั่วไปคือเขตเทศบาล ~ 170 กลุ่ม) เป็นปัจจัยในการจัดกลุ่มสำหรับเอฟเฟกต์แบบสุ่ม (มีเพียง 5 เขตในข้อมูลดังนั้นฉันจะไม่ใช้สิ่งนั้น) ฉันจะทดสอบความสัมพันธ์เชิงพื้นที่ของเศษซากอัตโนมัติโดยใช้ Global Moran I. ฉันจะรายงานกลับเมื่อฉันทำเช่นนั้น
ซามูเอลวอล์คเกอร์

@AndrewM ขอบคุณสำหรับข้อมูล! ฉันไม่ได้ตระหนักถึง brms และไม่คุ้นเคยกับสถิติแบบเบย์โดยทั่วไป แต่ตอนนี้ฉันค่อนข้างสนใจที่จะดูมัน
prestevez

1
@ SamuelWalker ดีใจที่มันมีประโยชน์! เขตเทศบาลดูเหมือนว่าเป็นทางเลือกที่ดี (ฉันไม่คุ้นเคยกับข้อมูลการสำรวจสำมะโนประชากรของสหรัฐดังนั้นฉันจึงแนะนำเขตโดยที่ไม่รู้ว่าเหมาะสมหรือไม่) เกี่ยวกับการเปรียบเทียบ glmer.nb นั้นเหมาะกับวัตถุ brms แต่ฉันไม่แน่ใจว่าจะเป็นวิธีที่ดีที่สุดในการเปรียบเทียบพวกเขาเนื่องจากฉันไม่คุ้นเคยกับสถิติแบบเบย์ โชคดี!
prestevez

1
@SamuelWalker ทางเลือกที่เป็นไปได้อาจจะเหมาะกับทั้งรูปแบบมาตรฐานและแบบ Negbin ที่สูงเกินจริงโดยใช้brmsและเปรียบเทียบ
prestevez
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.