แบบจำลองสำหรับข้อมูลที่ไม่เป็นลบพร้อมการจับกลุ่มที่ศูนย์ (Tweedie GLM, GLM ที่ไม่ทำให้เป็นศูนย์เป็นต้น) สามารถทำนายค่าศูนย์ที่แน่นอนได้หรือไม่


15

การแจกแจงแบบทวีคูณสามารถสร้างแบบจำลองข้อมูลเอียงด้วยมวลจุดที่ศูนย์เมื่อพารามิเตอร์ (เลขชี้กำลังในความสัมพันธ์ความแปรปรวนเฉลี่ย) อยู่ระหว่าง 1 ถึง 2p

ในทำนองเดียวกันรูปแบบศูนย์ที่พองเกิน (ไม่ว่าจะเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง) อาจมีเลขศูนย์จำนวนมาก

ฉันมีปัญหาในการทำความเข้าใจว่าทำไมเมื่อฉันทำการทำนายหรือคำนวณค่าติดตั้งกับโมเดลเหล่านี้ค่าที่ทำนายทั้งหมดจะไม่เป็นศูนย์

แบบจำลองเหล่านี้สามารถทำนายค่าศูนย์ที่แน่นอนได้จริงหรือ

ตัวอย่างเช่น

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

predตอนนี้ไม่มีเลขศูนย์ใด ๆ ฉันคิดว่าประโยชน์ของแบบจำลองเช่นการกระจาย Tweedie มาจากความสามารถในการทำนายค่าศูนย์ที่แน่นอนและส่วนต่อเนื่อง

ฉันรู้ว่าในตัวอย่างของฉันตัวแปรxไม่สามารถคาดเดาได้มาก


ยังพิจารณารูปแบบการตอบสนองลำดับ semiparametric ซึ่งจะช่วยให้การกระจายพลสำหรับYY
Frank Harrell

คำตอบ:


16

โปรดทราบว่าค่าที่คาดการณ์ไว้ใน GLM เป็นค่าเฉลี่ย

สำหรับการแจกแจงใด ๆเกี่ยวกับค่าที่ไม่เป็นลบการคาดการณ์ค่าเฉลี่ย 0 การกระจายนั้นจะต้องมีการขัดขวางอย่างสิ้นเชิงที่ 0

อย่างไรก็ตามด้วยการเชื่อมโยงล็อกคุณจะไม่พอดีกับค่าเฉลี่ยที่แน่นอน (เนื่องจากจะต้องใช้ไปที่- )η

ดังนั้นปัญหาของคุณไม่ได้เป็นปัญหากับ Tweedie แต่เป็นเรื่องทั่วไปมากกว่า คุณจะมีปัญหาเดียวกันกับ Poisson (ตัวอย่างเช่น Poisson GLM ที่พองตัวเป็นศูนย์หรือสามัญ)

ฉันคิดว่าประโยชน์ของการกระจาย Tweedie นั้นมาจากความสามารถในการทำนายค่าศูนย์ที่แน่นอนและส่วนต่อเนื่อง

เนื่องจากการทำนายค่าศูนย์ที่แน่นอนจะไม่เกิดขึ้นสำหรับการแจกจ่ายใด ๆ ที่เกินกว่าค่าที่ไม่ใช่ค่าลบด้วยการเชื่อมโยงล็อกการคิดของคุณเกี่ยวกับเรื่องนี้จะต้องเข้าใจผิด

สิ่งที่น่าสนใจอย่างหนึ่งของมันคือมันสามารถสร้างศูนย์ที่แน่นอนในข้อมูลไม่ใช่การทำนายค่าเฉลี่ยจะเป็น 0 [แน่นอนว่าการกระจายตัวที่พอดีกับค่าที่ไม่ใช่ศูนย์ยังคงมีความน่าจะเป็นที่จะเป็นศูนย์ถึงแม้ว่าค่าเฉลี่ยจะต้องมากกว่า 0 . ช่วงเวลาการทำนายที่เหมาะสมอาจรวมถึง 0 เช่น]

มันไม่สำคัญเลยว่าการกระจายตัวที่ติดตั้งนั้นรวมถึงสัดส่วนที่เป็นศูนย์ใด ๆ - ซึ่งไม่ได้ทำให้ค่าเฉลี่ยของการติดตั้งเป็นศูนย์

โปรดทราบว่าถ้าคุณเปลี่ยนฟังก์ชั่นลิงก์ของคุณเพื่อบอกลิงค์ตัวตนมันไม่ได้แก้ปัญหาของคุณ - ค่าเฉลี่ยของตัวแปรสุ่มแบบไม่ลบที่ไม่ใช่ศูนย์ทั้งหมดจะเป็นค่าบวก


1
ขอบคุณสำหรับคำอธิบายของคุณ ฉันเปรียบเทียบ tweedie glm กับ gamma glm และ betas นั้นเกือบจะเหมือนกันทุกประการไม่ว่าจะมีค่าศูนย์อยู่เท่าใด (ฉันเปลี่ยนค่าศูนย์เป็นค่าที่น้อยมากสำหรับ gamma glm) และอะไรคือวิธีที่เสนอในการทำนายค่าศูนย์และส่วนต่อเนื่องพร้อมกัน
spore234

2
@ spore234 คุณสามารถม้วนโมเดลแกมม่า - กีดขวางของคุณเองซึ่งจะมีอุปสรรค์แบบทวินามที่จะทำนาย 0/1 และแบบจำลองแกมม่าที่พอดีกับข้อมูลที่ไม่เป็นศูนย์ นี่คือลิงค์ไปยังโพสต์บล็อกที่กล่าวถึงโมเดลนี้และวิธีการติดตั้งด้วยตัวเองใน R ด้วยมือเปล่าหากมีสิ่งใดที่ต่อเนื่องคุณจะรู้ได้อย่างไรว่ามันเป็นศูนย์อย่างแน่นอน เครื่องมือวัดของคุณมีความสามารถในการวัดแบบละเอียดหรือไม่?
Reinstate Monica - G. Simpson

2
@spore คุณจะต้องมีความชัดเจนมากขึ้นเกี่ยวกับสิ่งที่คุณหมายถึงโดย "ทำนายศูนย์"; คำตอบของฉันได้กำหนดไว้แล้วว่าทำไมไม่มีรูปแบบการแจกแจงแบบอื่นที่ใช้แทน Tweedie จะให้การทำนายค่าเฉลี่ยเป็นศูนย์ เมื่อได้รับการคาดหมายว่าอะไรคือสิ่งที่คุณหมายถึงโดย "ทำนาย" เมื่อคุณใช้ GLM ตอนนี้คุณหมายถึงอะไร หากคุณเปลี่ยนมันเพื่อหมายถึงบางสิ่งบางอย่างที่โมเดลพองตัวหรือกระโดดข้าม 0 ทำให้รู้สึก Tweedie อาจตอบสนองเงื่อนไขเดียวกันได้เป็นอย่างดี
Glen_b -Reinstate Monica

1
มันขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "ทำนาย" (เนื่องจากคุณไม่ได้หมายถึง "คาดการณ์ค่าเฉลี่ย" คุณจำเป็นต้องพูดในสิ่งที่คุณต้องการ - คุณต้องการคาดการณ์ความน่าจะเป็นของศูนย์หรือไม่คุณต้องการ การคาดการณ์ค่ามัธยฐานมีอะไรอย่างอื่นอีก) และสิ่งใดที่คุณคิดว่าเป็น "ดีกว่า" ดังนั้นอาจมีการเปรียบเทียบบางอย่าง
Glen_b -Reinstate Monica

1
@ spore234 ปัญหาอีกครั้งคือคุณใช้คำว่า "ทำนาย" แต่ล้มเหลวในการกำหนดสิ่งที่คุณหมายถึงโดย "ทำนาย" (ฉันถามต่อไป!) ดูเหมือนว่าคุณจะมีการตัดออกทั้งสองด้านของการตีความที่ชัดเจนที่สุดของคำว่าในสถานการณ์เช่นนี้ดังนั้นคุณจึงจำเป็นที่จะบอกว่าสิ่งที่คุณทำค่าเฉลี่ย เมื่อคุณพูดว่า "ทำนายค่าใช้จ่ายของบุคคลนี้จะเป็นเท่าใด" คุณหมายถึงอะไรจริง ๆ ? โปรดทราบว่าคุณไม่สามารถรับค่าใช้จ่ายที่แน่นอนสำหรับแต่ละคน ... ดังนั้นการคาดการณ์นี้จึงมีคุณสมบัติใด
Glen_b -Reinstate Monica

10

การทำนายสัดส่วนของศูนย์

ฉันเป็นผู้เขียนแพ็คเกจ statmod และเป็นผู้เขียนร่วมของแพ็คเกจทวีด ทุกอย่างในตัวอย่างของคุณทำงานอย่างถูกต้อง รหัสมีการบัญชีอย่างถูกต้องสำหรับศูนย์ใด ๆ ที่อาจอยู่ในข้อมูล

ตามที่ Glen_b และ Tim ได้อธิบายแล้วค่าเฉลี่ยที่คาดการณ์ไว้จะไม่เป็นศูนย์อย่างแน่นอนเว้นแต่ความน่าจะเป็นของศูนย์เท่ากับ 100% สิ่งที่อาจเป็นที่สนใจคือสัดส่วนที่คาดการณ์ไว้ของศูนย์และสิ่งนี้สามารถสกัดจากแบบจำลองได้อย่างง่ายดายตามที่ฉันแสดงด้านล่าง

นี่คือตัวอย่างการทำงานที่สมเหตุสมผลมากขึ้น ก่อนอื่นทำการจำลองข้อมูล:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

ข้อมูลมี 12 ศูนย์

ตอนนี้พอดีกับ GLED Tweedie:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

xϕ

x

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

ดังนั้นสัดส่วนที่คาดการณ์ของศูนย์จะแตกต่างกันไปจาก 38.1% ที่ค่าเฉลี่ยที่เล็กที่สุดจนถึง 4.5e-6 ที่ค่าเฉลี่ยที่ใหญ่ที่สุด

สูตรสำหรับความน่าจะเป็นของศูนย์แน่นอนที่สามารถพบได้ในดันน์และเบิร์นส (2001) Tweedie ครอบครัวความหนาแน่น: วิธีการประเมินหรือDunn & เบิร์นส (2005) การประเมินผลซีรีส์ของ Tweedie ชี้แจงการกระจายความหนาแน่นรุ่น


ขอบคุณมีประโยชน์! คำแนะนำใด ๆ เกี่ยวกับวิธีคำนวณช่วงความเชื่อมั่นสำหรับความน่าจะเป็นที่แน่นอนเหล่านี้เป็นศูนย์? มันจะสมเหตุสมผลหรือไม่ ฉันยังงงงวยกับวิธีการกำหนด "โอกาส 95%" จากรายงานปี 2548 ของคุณซึ่งอาจเป็นสิ่งที่ฉันไม่สามารถหาได้ ฉันจะขอบคุณอ้างอิงอย่างมาก
irintch3

8

คำตอบนี้ถูกรวมเข้ากับเธรดอื่นที่ถามเกี่ยวกับการทำนายแบบจำลองการถดถอยที่ไม่ต้องเสียค่าศูนย์ แต่ก็ใช้กับโมเดล Tweedie GLM

ff

fzeroinfl(y)=πI{0}(y)+(1π)f(y)

Ifzeroinfl(y)

μi=π0+(1π)g1(xiβ)

g1เห็นค่าศูนย์ส่วนเกินในการทำนายของคุณเนื่องจากค่าศูนย์ไม่ใช่ค่าเฉลี่ยของการแจกแจง (ในขณะที่ค่าเฉลี่ยลดลงสู่ศูนย์) เช่นเดียวกับการถดถอยเชิงเส้น ส่วนที่เหลือ

YXที่Y ตามการกระจายปัวซอง zero-inflated กับค่าเฉลี่ยตามเงื่อนไขบน X. จุดสีดำเป็นข้อมูลจริงที่ใช้เพื่อให้เหมาะสมกับโมเดลการถดถอยแบบปัวซองที่ไม่พองศูนย์จุดสีแดงเป็นการทำนายและจุดสีน้ำเงินหมายถึงY ภายในหกกลุ่มโดยพลการของ Xค่า อย่างที่คุณเห็นชัดเจนการประมาณค่าแบบจำลองการถดถอยปัวซองที่สูงเกินจริงE(Y|X).

Example


ทิมนี่เป็นคำตอบที่ยอดเยี่ยมจริงๆและฉันขอโทษสำหรับช่วงเวลาแห่งการรวมเข้าด้วยกัน หากคุณต้องการอะไรเกี่ยวกับคำถามที่ได้รับการแก้ไขเพิ่มเติมเพื่อให้เป็นที่ยอมรับมากขึ้นหรือเพื่อให้เข้ากันได้ดีขึ้น (รวมคำถามที่คุณตอบบางที) โปรดไปข้างหน้ามิฉะนั้นเรายินดีที่จะทำเพื่อคุณ
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.