ทำไม quasi-Poisson ใน GLM จึงไม่ถือว่าเป็นกรณีพิเศษของทวินามลบ


21

ฉันกำลังพยายามจัดวางโมเดลเชิงเส้นแบบทั่วไปกับชุดข้อมูลนับจำนวนหนึ่งที่อาจหรือไม่อาจใช้เกินขนาด การแจกแจงแบบบัญญัติทั้งสองที่ใช้ในที่นี้คือ Poisson และ Negative Binomial (Negbin) พร้อม EVและความแปรปรวนμ

VarP=μ

VarNB=μ+μ2θ

ซึ่งสามารถติดตั้งในการใช้ R glm(..,family=poisson)และglm.nb(...)ตามลำดับ นอกจากนี้ยังมีquasipoissonครอบครัวซึ่งในความเข้าใจของฉันเป็นปัวซองปรับด้วย EV และความแปรปรวนเดียวกัน

VarQP=ϕμ ,

เช่นตกบางแห่งระหว่าง Poisson และ Negbin ปัญหาหลักของครอบครัว quasipoisson คือไม่มีความเกี่ยวข้องกันดังนั้นจึงมีการทดสอบทางสถิติที่มีประโยชน์อย่างมากและใช้มาตรการที่เหมาะสม (AIC, LR etcetera)

ถ้าคุณเปรียบเทียบ QP และ Negbin แปรปรวนคุณอาจสังเกตเห็นว่าคุณสามารถถือเอาพวกเขาโดยการวางtheta} ดำเนินการต่อในตรรกะนี้คุณสามารถลองแสดงการแจกแจง quasipoisson เป็นกรณีพิเศษของ Negbin:ϕ=1+μθ

QP(μ,ϕ)=NB(μ,θ=μϕ1) ,

เช่น Negbin กับเป็นเส้นตรงขึ้นอยู่กับ\ฉันพยายามที่จะตรวจสอบความคิดนี้โดยการสร้างตัวเลขสุ่มตามสูตรข้างต้นและเหมาะสมกับ:μθμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

ทั้งเหมาะกับการทำซ้ำพารามิเตอร์และ quasipoisson ให้ประมาณการ 'เหมาะสม' สำหรับ\ตอนนี้เรายังสามารถกำหนดค่า AIC สำหรับ quasipoisson:ϕ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(ฉันมีการคัดลอกด้วยตนเองติดตั้งค่าจากที่ผมไม่สามารถหาได้ในวัตถุ)ϕsummary(glmQP)glmQP

เนื่องจากสิ่งนี้จะบ่งบอกว่า quasipoisson นั้นไม่น่าแปลกใจเลยว่าเหมาะสมดีกว่า; ดังนั้นอย่างน้อยทำในสิ่งที่ควรทำและดังนั้นจึงอาจเป็นคำจำกัดความที่สมเหตุสมผลสำหรับ AIC (และโดยการขยายความน่าจะเป็น) ของ quasipoisson คำถามใหญ่ที่ฉันทิ้งไว้คือ A I C Q PAผมQP<Aผมยังไม่มีข้อความBAผมQP

  1. ความคิดนี้สมเหตุสมผลหรือไม่ การยืนยันของฉันขึ้นอยู่กับการใช้เหตุผลแบบวงกลมหรือไม่?
  2. คำถามหลักสำหรับทุกคนที่ 'ประดิษฐ์' บางสิ่งบางอย่างที่ดูเหมือนจะหายไปจากหัวข้อที่ได้รับการยอมรับ: ถ้าความคิดนี้สมเหตุสมผลแล้วทำไมมันถึงไม่มีการนำมาใช้glm?

แก้ไข: เพิ่มรูปแล้ว

glm พอดีและ + -1 sigma bands


1
(+1) ยินดีต้อนรับสู่การตรวจสอบข้าม! และขอขอบคุณสำหรับคำถามที่ยอดเยี่ยม (แม้ว่าความคิดเห็นเล็กน้อยในรหัสอาจดีสำหรับผู้ที่ไม่ได้ใช้ R) ฉันคิดว่าคุณอาจคิดค้นรูปแบบ NB1 อีกครั้ง (แม้ว่าฉันจะไม่ได้ติดตามรายละเอียดเลย) โปรดทราบว่าไม่มีการกระจายกึ่งปัวซอง- ซึ่งเป็นสาเหตุที่ไม่มีความน่าจะเป็นหรือ AIC - เพียงแค่อ้างถึงวิธีการที่เหมาะสมหมายถึง & ความแปรปรวน
Scortchi - Reinstate Monica

2
ขอบคุณ! ฉันได้เพิ่มความคิดเห็นในระหว่างนี้ฉันหวังว่าจะล้างสิ่งต่างๆ ฉันเข้าใจว่าการกระจายแบบกึ่งปัวซองไม่ได้มีอยู่ต่อสิ่งที่ฉันพยายามจะคิดออกว่าทำไม QP ถึงเป็นอะไรเลยโดยพิจารณาว่าการกระจาย NB1 นั้นมีอยู่และไม่มีปัญหาแบบกึ่งคำถามของ QP (ดู Achims ตอบสำหรับการแก้ปัญหาที่ชัดเจน)
28400

1
@Scortchi --- จริงมีคือการกระจายเช่น ... ถ้าและแล้วเป็นครอบครัวที่มีค่าเฉลี่ยชี้แจงและแปรปรวน\ ถ้า1 มันไม่จำเป็นต้องเป็นที่เหมาะสมสำหรับข้อมูลนับ (ยกเว้นที่ประมาณ) เนื่องจากมันกำหนดไว้ใน... Y = k X Y μ = k λ k μ k 1 0 , k , 2 k , . .X~pois(λ)Y=kXYμ=kλkμk10,k,2k,...
Glen_b -Reinstate Monica

1
@Glen_b: คนเรียกว่าเสมือนปัวซองหรือไม่ ไม่ว่าในกรณีใดมันเป็นตัวอย่างที่ดี - เมื่อคุณใช้โมเดล "quasiPoisson" คุณไม่ได้สมมติว่าการแจกแจงนั้นหรือ NB1 หรืออื่น ๆ เพียงแค่ความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวนที่ทำให้ค่าประมาณสัมประสิทธิ์และข้อผิดพลาดมาตรฐานของพวกเขา ดีกว่าเมื่อกลุ่มตัวอย่างใหญ่ขึ้น
Scortchi - Reinstate Monica

1
@Scortchi มันเป็นเพียงการแจกแจงแบบครอบครัวเอ็กซ์โพเนนเชียลที่เป็นไปตามสมมติฐานของ quasi-Poisson ดังนั้นในบางครั้งฉันได้เห็นผู้คนชี้ให้เห็นว่ามันคือการแจกแจงที่มีความหมายตามสมมติฐาน แน่นอนว่าเมื่อผู้คนใช้มันพวกเขาแทบไม่เคยคิดเลยว่าข้อมูลของพวกเขาจะมาจากการแจกจ่ายที่เฉพาะเจาะจง แต่มันก็มีไว้เพื่อเป็นคำอธิบายคร่าวๆว่าความสัมพันธ์และความแปรปรวนของพวกเขาเกี่ยวข้องกันอย่างไร (อาจสมเหตุสมผลภายใต้สมมติฐานที่ง่ายมากในบางแอปพลิเคชั่นการประกันภัย - ค่าใช้จ่ายในการเคลมทั้งหมดซึ่งจำนวนการเคลมนั้นคือปัวซองและค่าใช้จ่ายต่อการเรียกร้องจะคงที่อย่างมีประสิทธิภาพ)
Glen_b

คำตอบ:


24

quasi-Poisson ไม่ใช่รุ่นโอกาสสูงสุด (ML) เต็มรูปแบบ แต่เป็นรุ่นกึ่ง ML คุณเพียงแค่ใช้ฟังก์ชันการประมาณ (หรือฟังก์ชันคะแนน) จากแบบจำลอง Poisson เพื่อประมาณค่าสัมประสิทธิ์แล้วใช้ฟังก์ชันความแปรปรวนบางอย่างเพื่อรับข้อผิดพลาดมาตรฐานที่เหมาะสม (หรือเมทริกซ์ความแปรปรวนร่วมแบบเต็ม) เพื่อทำการอนุมาน ดังนั้นglm()ไม่จัดหาและlogLik()หรือAIC()ที่นี่เป็นต้น

sizeθผมμผม

หากไม่มี regressors (เพียงแค่ตัด) และตัวแปร NB1 และตัวแปรที่ NB2 งานโดยMASS's glm.nb()ตรง ด้วยความแตกต่าง ในวรรณคดีทางสถิติการใช้พารามิเตอร์ของ NB2 นั้นถูกใช้บ่อยกว่า แต่บางแพคเกจซอฟต์แวร์ก็มีรุ่น NB1 เช่นกัน ยกตัวอย่างเช่นใน R, คุณสามารถใช้แพคเกจที่จะทำgamlss gamlss(y ~ x, family = NBII)โปรดทราบว่ามีการgamlssใช้งานอย่างสับสนNBIสำหรับการจำกัดความของ NB2 และNBIIสำหรับ NB1 (แต่ศัพท์แสงและคำศัพท์จะไม่รวมเป็นหนึ่งเดียวกันในชุมชนทั้งหมด)

แน่นอนคุณอาจถามว่าทำไมใช้ quasi-Poisson ถ้ามี NB1 อยู่ ยังคงมีความแตกต่างเล็กน้อย: อดีตใช้ quasi-ML และได้รับการประเมินจากการกระจายตัวจากส่วนเบี่ยงเบนสแควร์ (หรือเพียร์สัน) หลังใช้ ML แบบเต็ม ในทางปฏิบัติความแตกต่างมักจะไม่มาก แต่แรงจูงใจในการใช้ทั้งสองรุ่นแตกต่างกันเล็กน้อย


1
ขอบคุณ! คำตอบที่เป็นประโยชน์มากฉันกำลังทดลองกับgamlssตอนนี้และดูเหมือนว่ามันเป็นสิ่งที่ฉันต้องการ คุณสามารถอธิบายรายละเอียดเกี่ยวกับแรงจูงใจในการใช้เสมือนจริงกับ ML เต็มรูปแบบได้หรือไม่?
28400

2
คุณถือว่าน้อย: คุณเพียงแค่สมมติ (1) ความสัมพันธ์บันทึกเชิงเส้นระหว่างความคาดหวังกับความถดถอย (2) ความสัมพันธ์เชิงเส้นระหว่างความแปรปรวนและความคาดหวัง โอกาสที่เหลือจะไม่ถูกระบุอย่างสมบูรณ์ อีกทางเลือกหนึ่งสำหรับ (2) ผู้ปฏิบัติงานบางครั้งใช้ข้อผิดพลาดมาตรฐานแซนวิช "แข็งแรง" ซึ่งจะช่วยให้รูปแบบ heteroskedasticity ทั่วไปมากขึ้น แน่นอนหนึ่งยังสามารถจ้าง NB1 ที่มีข้อผิดพลาดมาตรฐานแซนวิช ... vignette("countreg", package = "pscl")ความคิดเห็นเพิ่มเติมไม่กี่อยู่ในของเรา
Achim Zeileis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.