การทำนายสัดส่วนของศูนย์
ฉันเป็นผู้เขียนแพ็คเกจ statmod และเป็นผู้เขียนร่วมของแพ็คเกจทวีด ทุกอย่างในตัวอย่างของคุณทำงานอย่างถูกต้อง รหัสมีการบัญชีอย่างถูกต้องสำหรับศูนย์ใด ๆ ที่อาจอยู่ในข้อมูล
ตามที่ Glen_b และ Tim ได้อธิบายแล้วค่าเฉลี่ยที่คาดการณ์ไว้จะไม่เป็นศูนย์อย่างแน่นอนเว้นแต่ความน่าจะเป็นของศูนย์เท่ากับ 100% สิ่งที่อาจเป็นที่สนใจคือสัดส่วนที่คาดการณ์ไว้ของศูนย์และสิ่งนี้สามารถสกัดจากแบบจำลองได้อย่างง่ายดายตามที่ฉันแสดงด้านล่าง
นี่คือตัวอย่างการทำงานที่สมเหตุสมผลมากขึ้น ก่อนอื่นทำการจำลองข้อมูล:
> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3829 1.0306 2.7737 5.0287 7.4644 20.0855
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.8482 2.9249 4.7164 6.1522 24.3897
> sum(y==0)
[1] 12
ข้อมูลมี 12 ศูนย์
ตอนนี้พอดีกับ GLED Tweedie:
> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)
Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.71253 -0.94685 -0.07556 0.69089 1.84013
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.816784 0.168764 -4.84 4.84e-06 ***
x 0.036748 0.002275 16.15 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Tweedie family taken to be 0.8578628)
Null deviance: 363.26 on 99 degrees of freedom
Residual deviance: 103.70 on 98 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
xϕ
x
> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
1 2 3 4 5
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024
> Prob.Zero[96:100]
96 97 98 99 100
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06
ดังนั้นสัดส่วนที่คาดการณ์ของศูนย์จะแตกต่างกันไปจาก 38.1% ที่ค่าเฉลี่ยที่เล็กที่สุดจนถึง 4.5e-6 ที่ค่าเฉลี่ยที่ใหญ่ที่สุด
สูตรสำหรับความน่าจะเป็นของศูนย์แน่นอนที่สามารถพบได้ในดันน์และเบิร์นส (2001) Tweedie ครอบครัวความหนาแน่น: วิธีการประเมินหรือDunn & เบิร์นส (2005) การประเมินผลซีรีส์ของ Tweedie ชี้แจงการกระจายความหนาแน่นรุ่น