glmnet จัดการกับการกระจายเกินขนาดได้อย่างไร


9

ฉันมีคำถามเกี่ยวกับวิธีจำลองข้อความเหนือข้อมูลการนับโดยเฉพาะฉันจะใช้lassoเทคนิคเพื่อลดคุณลักษณะได้อย่างไร

สมมติว่าฉันมีบทความออนไลน์ N รายการและจำนวนการเปิดดูหน้าเว็บสำหรับแต่ละบทความ ฉันได้สกัด 1 กรัมและ 2 กรัมสำหรับแต่ละบทความแล้วและฉันต้องการเรียกใช้การถดถอยมากกว่า 1,2- กรัม เนื่องจากฟีเจอร์ (1,2-grams) นั้นมากกว่าวิธีการสังเกตจำนวนมาก Lasso จึงเป็นวิธีที่ดีในการลดจำนวนฟีเจอร์ นอกจากนี้ฉันพบว่าglmnetมันมีประโยชน์จริงๆในการรันการวิเคราะห์บ่วงบาศ

อย่างไรก็ตามจำนวนการเปิดดูหน้าเว็บนั้นมีจำนวนมากเกินไป (แปรปรวน> หมายถึง) แต่glmnetไม่มีการเสนอquasipoisson(อย่างชัดเจน) หรือnegative binomialแต่poissonสำหรับการนับข้อมูล วิธีการแก้ปัญหาที่ฉันคิดคือlog transformการนับข้อมูล (วิธีที่ใช้กันทั่วไปในหมู่นักสังคมศาสตร์) และทำให้ตัวแปรตอบสนองคร่าว ๆ ตามการแจกแจงปกติ glmnetเป็นเช่นนี้ผมอาจจะรูปแบบข้อมูลกับครอบครัวของเกาส์โดยใช้

ดังนั้นคำถามของฉันคือ: เหมาะสมหรือไม่ หรือฉันจะใช้ปัวซองglmnetในกรณีglmnetด้ามจับquasipoisson? หรือมีแพ็คเกจ R อื่น ๆ จัดการกับสถานการณ์นี้หรือไม่?

ขอบคุณมาก!

คำตอบ:


14

คำตอบสั้น ๆ

การกระจายตัวมากเกินไปไม่สำคัญเมื่อประเมินเวกเตอร์ของสัมประสิทธิ์การถดถอยสำหรับค่าเฉลี่ยเชิงเงื่อนไขในแบบจำลองกึ่ง / ปัวซอง! คุณจะไม่เป็นไรถ้าคุณลืมเรื่อง overdispersion ที่นี่ใช้ glmnet กับตระกูลปัวซองและแค่จดจ่อกับว่าข้อผิดพลาดการตรวจสอบความถูกต้องแบบไขว้ของคุณนั้นต่ำหรือไม่

คุณสมบัติดังต่อไปนี้ด้านล่าง


Poisson, Quasi-Poisson และฟังก์ชันการประมาณ:

ฉันพูดข้างต้นเพราะ overdispersion (OD) ในรูปแบบ Poisson หรือ quasi-poisson มีอิทธิพลต่อสิ่งที่เกี่ยวข้องกับการกระจายตัว (หรือความแปรปรวนหรือขนาดหรือความหลากหลายหรือการแพร่กระจายหรือสิ่งที่คุณต้องการเรียก) และเช่นนั้นมีผลต่อมาตรฐาน ข้อผิดพลาดและช่วงความเชื่อมั่นแต่ปล่อยให้ค่าประมาณตามเงื่อนไขของ (เรียกว่า ) ไม่ถูกแตะต้อง นี้จะใช้กับการสลายตัวเชิงเส้นของค่าเฉลี่ยเช่นyμxβ x

สิ่งนี้มาจากความจริงที่ว่าการประมาณสมการสำหรับสัมประสิทธิ์ของค่าเฉลี่ยตามเงื่อนไขนั้นมีค่าใกล้เคียงกันสำหรับทั้งแบบปัวซองและแบบกึ่งเสมือนจริง Quasi-poisson ระบุฟังก์ชันความแปรปรวนในแง่ของค่าเฉลี่ยและพารามิเตอร์เพิ่มเติม (พูด ) เป็น (สำหรับ Poisson = 1) แต่ไม่ได้กลายเป็น มีความเกี่ยวข้องเมื่อปรับสมการประมาณให้เหมาะสม ดังนั้นไม่มีบทบาทในการประมาณเมื่อค่าเฉลี่ยตามเงื่อนไขและความแปรปรวนเป็นสัดส่วน ดังนั้นการประมาณจุดจึงเหมือนกันสำหรับโมเดลเสมือนและปัวซอง!θVar(y)=θμθθθββ^

ให้ฉันอธิบายด้วยตัวอย่าง (สังเกตว่าจำเป็นต้องเลื่อนเพื่อดูรหัสและผลลัพธ์ทั้งหมด):

> library(MASS)
> data(quine) 
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.71538    0.06468  41.980  < 2e-16 ***
AgeF1       -0.33390    0.07009  -4.764 1.90e-06 ***
AgeF2        0.25783    0.06242   4.131 3.62e-05 ***
AgeF3        0.42769    0.06769   6.319 2.64e-10 ***
SexM         0.16160    0.04253   3.799 0.000145 ***
EthN        -0.53360    0.04188 -12.740  < 2e-16 ***
LrnSL        0.34894    0.05204   6.705 2.02e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: 2299.2

Number of Fisher Scoring iterations: 5

> summary(modqp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.7154     0.2347  11.569  < 2e-16 ***
AgeF1        -0.3339     0.2543  -1.313 0.191413    
AgeF2         0.2578     0.2265   1.138 0.256938    
AgeF3         0.4277     0.2456   1.741 0.083831 .  
SexM          0.1616     0.1543   1.047 0.296914    
EthN         -0.5336     0.1520  -3.511 0.000602 ***
LrnSL         0.3489     0.1888   1.848 0.066760 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 13.16691)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

อย่างที่คุณเห็นแม้ว่าเราจะมีการกระจายตัวที่เกิน 12.21 ในชุดข้อมูลนี้ (โดยdeviance(modp)/modp$df.residual) สัมประสิทธิ์การถดถอย (การประมาณจุด) จะไม่เปลี่ยนแปลงเลย แต่ให้สังเกตว่าข้อผิดพลาดมาตรฐานเปลี่ยนแปลงอย่างไร

คำถามของผลกระทบของการกระจายเกินในรุ่น Poisson ลงโทษ

โมเดลที่ถูกลงโทษส่วนใหญ่จะใช้สำหรับการทำนายและการเลือกตัวแปรและไม่ใช่ (ยัง) สำหรับการอนุมาน ดังนั้นผู้ที่ใช้แบบจำลองเหล่านี้จึงสนใจพารามิเตอร์การถดถอยสำหรับค่าเฉลี่ยแบบมีเงื่อนไข หากการลงโทษนั้นเหมือนกันสมการการประมาณสำหรับวิธีการที่มีเงื่อนไขซึ่งได้มาจากความน่าจะเป็นที่ได้รับการลงโทษ (เสมือน -) ก็ไม่ได้ขึ้นอยู่กับดังนั้นการกระจายเกินเหตุจึงไม่สำคัญสำหรับการประมาณในรูปแบบประเภท:θβ

g(μ)=xβ+f(β)

เมื่อประมาณในลักษณะเดียวกันกับฟังก์ชันความแปรปรวนของรูปแบบดังนั้นทุกรุ่นที่มีเงื่อนไขและความแปรปรวนแบบมีสัดส่วนอีกครั้ง βθμนี่เป็นเหมือนในโมเดลปัวซอง / quasipoisson

หากคุณไม่ต้องการใช้ค่านี้และหลีกเลี่ยงการคำนวณคุณสามารถค้นหาการสนับสนุนเชิงประจักษ์ในglmnetกรณีที่คุณตั้งค่าพารามิเตอร์การทำให้เป็น 0 (และ ) คุณจะสิ้นสุด สวยมากที่ปัวซองและ quasipoisson วางตำแหน่ง (ดูคอลัมน์สุดท้ายด้านล่างที่แลมบ์ดาคือ 0.005)f(β)=0

> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
                    s0         s1         s2         s3
(Intercept)  2.7320435  2.7221245  2.7188884  2.7172098
(Intercept)  .          .          .          .        
AgeF1       -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2        0.2496120  0.2544253  0.2559408  0.2567880
AgeF3        0.4079635  0.4197509  0.4236024  0.4255759
SexM         0.1530040  0.1581563  0.1598595  0.1607162
EthN        -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL        0.3336885  0.3428815  0.3459650  0.3474745

แล้ว OD ทำอะไรกับการลงโทษตัวแบบการถดถอย? ดังที่คุณอาจทราบว่ายังมีการถกเถียงกันบ้างเกี่ยวกับวิธีที่เหมาะสมในการคำนวณข้อผิดพลาดมาตรฐานสำหรับโมเดลที่มีการลงโทษ (ดูตัวอย่างที่นี่ ) และglmnetจะไม่แสดงผลใด ๆ ต่อไปอาจเป็นเพราะเหตุผลนั้น อาจเป็นไปได้ว่า OD จะมีผลต่อส่วนที่อนุมานของโมเดลเช่นเดียวกับในกรณีที่ไม่มีการลงโทษ แต่ถ้าฉันไม่เห็นพ้องต้องกันถึงการอนุมานในกรณีนี้เราไม่ทราบ

นอกจากนี้เราสามารถปล่อยให้ความยุ่งเหยิงทั้งหมดนี้เกิดขึ้นได้หากใครที่จะยอมรับมุมมองแบบเบย์ที่มีรูปแบบการลงโทษเป็นเพียงรุ่นมาตรฐานที่มีมาก่อน


@ โมโนขอบคุณสำหรับคำอธิบายรายละเอียดของคุณ! นี่คือความเข้าใจของฉันและโปรดแก้ไขให้ฉันถ้าฉันผิด: poissonและquasipoissonการถดถอยประมาณค่าสัมประสิทธิ์ในลักษณะเดียวกันและสิ่งที่แตกต่างคือวิธีที่พวกเขาประมาณข้อผิดพลาดมาตรฐานและความสำคัญ อย่างไรก็ตามสำหรับวิธี lasso วิธีการคำนวณข้อผิดพลาดมาตรฐานยังไม่ถึงฉันทามติและด้วยเหตุนี้การใช้งานในปัจจุบันส่วนใหญ่อยู่ในการเลือกตัวแปรมากกว่าการอนุมาน เช่นนี้ไม่สำคัญว่าเราจะใช้glmnetกับปัวซองหรือ quasipoisson แต่สิ่งที่เป็นข้อผิดพลาดที่ข้ามการตรวจสอบควรจะลดลง
Sonya S.

@ โมโนโน้ตอีกอันฉันวิ่งด้วยsummary(modqp)ตัวเองแล้วเห็นว่ามันมีค่าสัมประสิทธิ์ประมาณเท่ากันทุกประการ ฉันเชื่อว่าคำตอบของคุณจะเป็นประโยชน์ต่อผู้คนมากขึ้นในเรื่องนี้เพราะฉันไม่พบอะไรเลยฉันขอแนะนำให้คุณเพิ่มผลลัพธ์ของการสรุป (modqp) เพื่อเป็นตัวอย่างที่ดียิ่งขึ้น อีกครั้งขอบคุณมาก!
Sonya S.

1
@Sonya Yours เป็นบทสรุปที่ดี กุญแจสำคัญคือเมื่อประมาณค่าพารามิเตอร์สำหรับค่าเฉลี่ยตามเงื่อนไขฟังก์ชันการประมาณ (พูดฟังก์ชันคะแนน) สำหรับปัวซองและ quasipoisson เหมือนกัน! ดังนั้นจึงไม่สำคัญสำหรับพารามิเตอร์เหล่านี้ไม่ว่าจะมีการลงโทษหรือไม่ตราบใดที่มีการลงโทษเดียวกัน ฉันทำให้ชัดเจนยิ่งขึ้น ขอขอบคุณสำหรับตัวชี้ที่เกี่ยวข้องกับบทสรุป (modq) แต่ที่มีอยู่แล้วมันเพิ่งได้รับ "กล่อง" ในหน้าจอปกติดังนั้นหนึ่งต้องเลื่อนลง
Momo

ฉันยังคงสงสัยว่าเป็นไปได้หรือไม่ที่ตัวแปรจำนวนน้อยลงจะถูกลดขนาดลงในปัวส์ซองถ้ามีสเปคกึ่งเสมือนจริงซึ่งมีความถูกต้องมากกว่าและน่าจะนำไปสู่ความแม่นยำในการทำนายที่ดีกว่าแบบจำลองปัวซอง
Brash Equilibrium

ในหมายเหตุนั้นอาจเป็นไปได้ว่ามีตัวแปรจำนวนมากที่ถูกย่อขนาดลงในปัวซองมากกว่าที่จะถูกย่อในกรณีที่ไม่กระจายตัว (เช่นเมื่อคุณใช้โมเดลปัวซองที่แข็งแกร่งเพื่อประเมินอัตราส่วนความเสี่ยงสัมพัทธ์สำหรับข้อมูล 0/1)
Brash Equilibrium
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.