คำตอบสั้น ๆ
การกระจายตัวมากเกินไปไม่สำคัญเมื่อประเมินเวกเตอร์ของสัมประสิทธิ์การถดถอยสำหรับค่าเฉลี่ยเชิงเงื่อนไขในแบบจำลองกึ่ง / ปัวซอง! คุณจะไม่เป็นไรถ้าคุณลืมเรื่อง overdispersion ที่นี่ใช้ glmnet กับตระกูลปัวซองและแค่จดจ่อกับว่าข้อผิดพลาดการตรวจสอบความถูกต้องแบบไขว้ของคุณนั้นต่ำหรือไม่
คุณสมบัติดังต่อไปนี้ด้านล่าง
Poisson, Quasi-Poisson และฟังก์ชันการประมาณ:
ฉันพูดข้างต้นเพราะ overdispersion (OD) ในรูปแบบ Poisson หรือ quasi-poisson มีอิทธิพลต่อสิ่งที่เกี่ยวข้องกับการกระจายตัว (หรือความแปรปรวนหรือขนาดหรือความหลากหลายหรือการแพร่กระจายหรือสิ่งที่คุณต้องการเรียก) และเช่นนั้นมีผลต่อมาตรฐาน ข้อผิดพลาดและช่วงความเชื่อมั่นแต่ปล่อยให้ค่าประมาณตามเงื่อนไขของ (เรียกว่า ) ไม่ถูกแตะต้อง นี้จะใช้กับการสลายตัวเชิงเส้นของค่าเฉลี่ยเช่นyμx⊤β x
สิ่งนี้มาจากความจริงที่ว่าการประมาณสมการสำหรับสัมประสิทธิ์ของค่าเฉลี่ยตามเงื่อนไขนั้นมีค่าใกล้เคียงกันสำหรับทั้งแบบปัวซองและแบบกึ่งเสมือนจริง Quasi-poisson ระบุฟังก์ชันความแปรปรวนในแง่ของค่าเฉลี่ยและพารามิเตอร์เพิ่มเติม (พูด ) เป็น (สำหรับ Poisson = 1) แต่ไม่ได้กลายเป็น มีความเกี่ยวข้องเมื่อปรับสมการประมาณให้เหมาะสม ดังนั้นไม่มีบทบาทในการประมาณเมื่อค่าเฉลี่ยตามเงื่อนไขและความแปรปรวนเป็นสัดส่วน ดังนั้นการประมาณจุดจึงเหมือนกันสำหรับโมเดลเสมือนและปัวซอง!θVar(y)=θμθθθββ^
ให้ฉันอธิบายด้วยตัวอย่าง (สังเกตว่าจำเป็นต้องเลื่อนเพื่อดูรหัสและผลลัพธ์ทั้งหมด):
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
อย่างที่คุณเห็นแม้ว่าเราจะมีการกระจายตัวที่เกิน 12.21 ในชุดข้อมูลนี้ (โดยdeviance(modp)/modp$df.residual
) สัมประสิทธิ์การถดถอย (การประมาณจุด) จะไม่เปลี่ยนแปลงเลย แต่ให้สังเกตว่าข้อผิดพลาดมาตรฐานเปลี่ยนแปลงอย่างไร
คำถามของผลกระทบของการกระจายเกินในรุ่น Poisson ลงโทษ
โมเดลที่ถูกลงโทษส่วนใหญ่จะใช้สำหรับการทำนายและการเลือกตัวแปรและไม่ใช่ (ยัง) สำหรับการอนุมาน ดังนั้นผู้ที่ใช้แบบจำลองเหล่านี้จึงสนใจพารามิเตอร์การถดถอยสำหรับค่าเฉลี่ยแบบมีเงื่อนไข หากการลงโทษนั้นเหมือนกันสมการการประมาณสำหรับวิธีการที่มีเงื่อนไขซึ่งได้มาจากความน่าจะเป็นที่ได้รับการลงโทษ (เสมือน -) ก็ไม่ได้ขึ้นอยู่กับดังนั้นการกระจายเกินเหตุจึงไม่สำคัญสำหรับการประมาณในรูปแบบประเภท:θβ
g(μ)=x⊤β+f(β)
เมื่อประมาณในลักษณะเดียวกันกับฟังก์ชันความแปรปรวนของรูปแบบดังนั้นทุกรุ่นที่มีเงื่อนไขและความแปรปรวนแบบมีสัดส่วนอีกครั้ง βθμนี่เป็นเหมือนในโมเดลปัวซอง / quasipoisson
หากคุณไม่ต้องการใช้ค่านี้และหลีกเลี่ยงการคำนวณคุณสามารถค้นหาการสนับสนุนเชิงประจักษ์ในglmnet
กรณีที่คุณตั้งค่าพารามิเตอร์การทำให้เป็น 0 (และ ) คุณจะสิ้นสุด สวยมากที่ปัวซองและ quasipoisson วางตำแหน่ง (ดูคอลัมน์สุดท้ายด้านล่างที่แลมบ์ดาคือ 0.005)f(β)=0
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
แล้ว OD ทำอะไรกับการลงโทษตัวแบบการถดถอย? ดังที่คุณอาจทราบว่ายังมีการถกเถียงกันบ้างเกี่ยวกับวิธีที่เหมาะสมในการคำนวณข้อผิดพลาดมาตรฐานสำหรับโมเดลที่มีการลงโทษ (ดูตัวอย่างที่นี่ ) และglmnet
จะไม่แสดงผลใด ๆ ต่อไปอาจเป็นเพราะเหตุผลนั้น อาจเป็นไปได้ว่า OD จะมีผลต่อส่วนที่อนุมานของโมเดลเช่นเดียวกับในกรณีที่ไม่มีการลงโทษ แต่ถ้าฉันไม่เห็นพ้องต้องกันถึงการอนุมานในกรณีนี้เราไม่ทราบ
นอกจากนี้เราสามารถปล่อยให้ความยุ่งเหยิงทั้งหมดนี้เกิดขึ้นได้หากใครที่จะยอมรับมุมมองแบบเบย์ที่มีรูปแบบการลงโทษเป็นเพียงรุ่นมาตรฐานที่มีมาก่อน
poisson
และquasipoisson
การถดถอยประมาณค่าสัมประสิทธิ์ในลักษณะเดียวกันและสิ่งที่แตกต่างคือวิธีที่พวกเขาประมาณข้อผิดพลาดมาตรฐานและความสำคัญ อย่างไรก็ตามสำหรับวิธี lasso วิธีการคำนวณข้อผิดพลาดมาตรฐานยังไม่ถึงฉันทามติและด้วยเหตุนี้การใช้งานในปัจจุบันส่วนใหญ่อยู่ในการเลือกตัวแปรมากกว่าการอนุมาน เช่นนี้ไม่สำคัญว่าเราจะใช้glmnet
กับปัวซองหรือ quasipoisson แต่สิ่งที่เป็นข้อผิดพลาดที่ข้ามการตรวจสอบควรจะลดลง