มีการทดสอบเพื่อตรวจสอบว่าการทับซ้อน GLM มีความสำคัญหรือไม่?


44

ฉันกำลังสร้าง Poisson GLMs ในอาร์ในการตรวจสอบ overdispersion summary(model.name)ฉันกำลังมองหาที่อัตราส่วนของการเบี่ยงเบนที่เหลือเพื่อองศาอิสระให้บริการโดย

มีค่า cutoff หรือการทดสอบสำหรับอัตราส่วนนี้ที่จะพิจารณาว่า "สำคัญหรือไม่" ฉันรู้ว่าถ้ามัน> 1 ข้อมูลจะถูกใช้งานเกินขนาด แต่ถ้าฉันมีอัตราส่วนค่อนข้างใกล้กับ 1 [เช่นอัตราส่วนหนึ่งเท่ากับ 1.7 (ส่วนเบี่ยงเบนเหลือ = 25.48, df = 15) และอีก 1.3 (rd = 324, df = 253)] ฉันยังควรเปลี่ยนไปใช้ quasipoisson / binomial เชิงลบหรือไม่ ฉันพบที่นี่การทดสอบนี้เพื่อความสำคัญ: 1-pchisq (ส่วนเบี่ยงเบนเบี่ยงเบน, df) แต่ฉันเห็นเพียงครั้งเดียวซึ่งทำให้ฉันกังวล ฉันอ่านด้วย (ฉันไม่สามารถหาแหล่งที่มาได้) ว่าอัตราส่วน <1.5 มีความปลอดภัยโดยทั่วไป ความเห็น?

คำตอบ:


45

ในแพคเกจ R AER คุณจะพบกับฟังก์ชั่นdispersiontestซึ่งใช้การทดสอบ Overdispersionโดย Cameron & Trivedi (1990)

มันเป็นไปตามแนวคิดง่ายๆ: ในโมเดลปัวซงค่าเฉลี่ยคือและความแปรปรวนคือเช่นกัน พวกเขาเท่ากัน การทดสอบเพียงทดสอบสมมติฐานนี้เป็นสมมติฐานว่างกับทางเลือกที่ที่ค่าคงที่หมายถึงการด้อยค่าและหมายถึงการกระจายเกิน ฟังก์ชั่นเป็นฟังก์ชั่น (มักเป็นเส้นตรงหรือกำลังสอง; อดีตคือค่าเริ่มต้น) การทดสอบผลลัพธ์เทียบเท่ากับการทดสอบเทียบกับและสถิติการทดสอบที่ใช้คือสถิติซึ่งเป็นมาตรฐานปกติเชิงเส้นกำกับภายใต้ศูนย์E(Y)=μVar(Y)=μVar(Y)=μ+cf(μ)c<0c>0f(.)H0:c=0H1:c0t

ตัวอย่าง:

R> library(AER)
R> data(RecreationDemand)
R> rd <- glm(trips ~ ., data = RecreationDemand, family = poisson)
R> dispersiontest(rd,trafo=1)

Overdispersion test

data:  rd
z = 2.4116, p-value = 0.007941
alternative hypothesis: true dispersion is greater than 0
sample estimates:
dispersion 
    5.5658 

ที่นี่เราเห็นได้อย่างชัดเจนว่ามีหลักฐานของการกระจายเกิน (คาดว่าจะอยู่ที่ 5.57) ซึ่งค่อนข้างรุนแรงเมื่อเทียบกับสมมติฐานของภาวะสมดุล (เช่น c = 0)

โปรดทราบว่าหากคุณไม่ได้ใช้trafo=1จริง ๆ แล้วมันจะทำการทดสอบเทียบกับกับซึ่งแน่นอนว่าผลเช่นเดียวกับการทดสอบอื่น ๆ นอกเหนือจากสถิติการทดสอบที่ถูกเปลี่ยนโดยหนึ่ง เหตุผลสำหรับเรื่องนี้แม้ว่าเป็นที่หลังสอดคล้องกับ parametrization ร่วมกันในรูปแบบเสมือนปัวซอง H0:c=1H1:c1c=c+1


1
ฉันต้องใช้glm(trips ~ 1, data = data, family = poisson)(เช่น1แทนที่จะ.เป็นข้อมูลของฉัน) แต่เยี่ยมมากขอบคุณ
ฟิล

12

อีกทางเลือกหนึ่งคือodTestจากpsclห้องสมุดซึ่งเปรียบเทียบอัตราส่วนล็อกโอกาสของการถดถอยทวินามเชิงลบข้อ จำกัด ของ Poisson ถดถอย{} ผลลัพธ์ที่ได้รับดังต่อไปนี้:μ=Var

>library(pscl)

>odTest(NegBinModel) 

Likelihood ratio test of H0: Poisson, as restricted NB model:
n.b., the distribution of the test-statistic under H0 is non-standard
e.g., see help(odTest) for details/references

Critical value of test statistic at the alpha= 0.05 level: 2.7055 
Chi-Square Test Statistic =  52863.4998 p-value = < 2.2e-16

นี่ null ของข้อ จำกัด Poisson NegBinModelถูกปฏิเสธในความโปรดปรานของการถดถอยทวินามของฉันเชิงลบ ทำไม? เพราะสถิติการทดสอบ52863.4998สูงกว่าด้วย2.7055p-value of < 2.2e-16

ข้อได้เปรียบของการAER dispersiontestเป็นวัตถุที่ส่งคืนของคลาส "htest" ง่ายต่อการจัดรูปแบบ (เช่นการแปลงเป็น LaTeX) กว่า 'odTest` classless


5

อีกทางเลือกหนึ่งคือการใช้P__dispฟังก์ชั่นจากmsmeแพคเกจ P__dispฟังก์ชั่นที่สามารถใช้ในการคำนวณเพียร์สันสถิติและเพียร์สันกระจายหลังจากที่เหมาะสมกับรูปแบบหรือχ2glmglm.nb


2

อีกทางเลือกหนึ่งคือการใช้การทดสอบอัตราส่วนความน่าจะเป็นเพื่อแสดงว่า quasipoisson GLM ที่มีการกระจายเกินเหตุอย่างมีนัยสำคัญดีกว่าปัวซองปกติ GLM โดยไม่มีการกระจายเกินจริง:

fit = glm(count ~ treatment,family="poisson",data=data) 
fit.overdisp = glm(count ~ treatment,family="quasipoisson",data=data) 
summary(fit.overdisp)$dispersion # dispersion coefficient
pchisq(summary(fit.overdisp)$dispersion * fit$df.residual, fit$df.residual, lower = F) # significance for overdispersion
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.