ฉันกำลังพยายามจัดวางโมเดลเชิงเส้นแบบทั่วไปกับชุดข้อมูลนับจำนวนหนึ่งที่อาจหรือไม่อาจใช้เกินขนาด การแจกแจงแบบบัญญัติทั้งสองที่ใช้ในที่นี้คือ Poisson และ Negative Binomial (Negbin) พร้อม EVและความแปรปรวน
ซึ่งสามารถติดตั้งในการใช้ R glm(..,family=poisson)
และglm.nb(...)
ตามลำดับ นอกจากนี้ยังมีquasipoisson
ครอบครัวซึ่งในความเข้าใจของฉันเป็นปัวซองปรับด้วย EV และความแปรปรวนเดียวกัน
,
เช่นตกบางแห่งระหว่าง Poisson และ Negbin ปัญหาหลักของครอบครัว quasipoisson คือไม่มีความเกี่ยวข้องกันดังนั้นจึงมีการทดสอบทางสถิติที่มีประโยชน์อย่างมากและใช้มาตรการที่เหมาะสม (AIC, LR etcetera)
ถ้าคุณเปรียบเทียบ QP และ Negbin แปรปรวนคุณอาจสังเกตเห็นว่าคุณสามารถถือเอาพวกเขาโดยการวางtheta} ดำเนินการต่อในตรรกะนี้คุณสามารถลองแสดงการแจกแจง quasipoisson เป็นกรณีพิเศษของ Negbin:
,
เช่น Negbin กับเป็นเส้นตรงขึ้นอยู่กับ\ฉันพยายามที่จะตรวจสอบความคิดนี้โดยการสร้างตัวเลขสุ่มตามสูตรข้างต้นและเหมาะสมกับ:μglm
#fix parameters
phi = 3
a = 1/50
b = 3
x = 1:100
#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison
mu = exp(a*x+b)
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator
#fit a generalized linear model y = f(x)
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial
> glmQP
Call: glm(formula = y ~ x, family = quasipoisson)
Coefficients:
(Intercept) x
3.11257 0.01854
(Dispersion parameter for quasipoisson family taken to be 3.613573)
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 2097
Residual Deviance: 356.8 AIC: NA
> glmNB
Call: glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)
Coefficients:
(Intercept) x
3.10182 0.01873
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 578.1
Residual Deviance: 107.8 AIC: 824.7
ทั้งเหมาะกับการทำซ้ำพารามิเตอร์และ quasipoisson ให้ประมาณการ 'เหมาะสม' สำหรับ\ตอนนี้เรายังสามารถกำหนดค่า AIC สำหรับ quasipoisson:
df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values
#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329
(ฉันมีการคัดลอกด้วยตนเองติดตั้งค่าจากที่ผมไม่สามารถหาได้ในวัตถุ)summary(glmQP)
glmQP
เนื่องจากสิ่งนี้จะบ่งบอกว่า quasipoisson นั้นไม่น่าแปลกใจเลยว่าเหมาะสมดีกว่า; ดังนั้นอย่างน้อยทำในสิ่งที่ควรทำและดังนั้นจึงอาจเป็นคำจำกัดความที่สมเหตุสมผลสำหรับ AIC (และโดยการขยายความน่าจะเป็น) ของ quasipoisson คำถามใหญ่ที่ฉันทิ้งไว้คือ A I C Q P
- ความคิดนี้สมเหตุสมผลหรือไม่ การยืนยันของฉันขึ้นอยู่กับการใช้เหตุผลแบบวงกลมหรือไม่?
- คำถามหลักสำหรับทุกคนที่ 'ประดิษฐ์' บางสิ่งบางอย่างที่ดูเหมือนจะหายไปจากหัวข้อที่ได้รับการยอมรับ: ถ้าความคิดนี้สมเหตุสมผลแล้วทำไมมันถึงไม่มีการนำมาใช้
glm
?
แก้ไข: เพิ่มรูปแล้ว