เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง

ฉันมีข้อมูลเหล่านี้:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

ฉันใช้การถดถอยปัวซอง

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

และการถดถอยแบบทวินามลบ

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

และการถดถอยแบบทวินามลบ

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง

— ลูเซียโน
แหล่งที่มา

คำตอบ:

สิ่งนี้ค่อนข้างตรงไปตรงมา แต่ "โดยไม่ต้องใช้สมการ" เป็นอุปสรรคอย่างมาก ฉันสามารถอธิบายได้ด้วยคำพูด แต่คำเหล่านั้นจำเป็นต้องสะท้อนสมการ ฉันหวังว่าจะเป็นที่ยอมรับ / ยังคงมีคุณค่าสำหรับคุณ (สมการที่เกี่ยวข้องนั้นไม่ยาก)

มีของเหลือใช้หลายประเภท เศษซากดิบเป็นเพียงความแตกต่างระหว่างค่าการตอบสนองที่สังเกตได้ (ในกรณีของคุณcounts) และค่าการตอบสนองที่คาดการณ์ของแบบจำลอง ส่วนที่เหลือของเพียร์สันหารด้วยส่วนเบี่ยงเบนมาตรฐาน (สแควร์รูทของฟังก์ชันความแปรปรวนสำหรับรุ่นเฉพาะของโมเดลเชิงเส้นทั่วไปที่คุณกำลังใช้)

ค่าเบี่ยงเบนมาตรฐานที่เกี่ยวข้องกับการกระจาย Poissonมีขนาดเล็กกว่าของทวินามเชิงลบ ดังนั้นเมื่อคุณหารด้วยตัวหารที่ใหญ่กว่า

นอกจากนี้ทวินามลบก็เหมาะสมกับคดีของคุณมากกว่าเพราะคุณcountsจะถูกแจกจ่ายเป็นเครื่องแบบในประชากร นั่นคือความแปรปรวนของพวกเขาจะไม่เท่ากับค่าเฉลี่ยของพวกเขา

— gung - Reinstate Monica
แหล่งที่มา

ถึงแม้ว่า OP จะขอคำอธิบายที่ไม่ใช่ทางคณิตศาสตร์ แต่ก็ยังเป็นการดีที่ได้เห็นการให้เหตุผลทางคณิตศาสตร์ เมื่ออ่านคำถามปรีชาของฉันก็คือ "เพราะปัวซองเป็นกรณีพิเศษ (จำกัด ) ของ NB และ NB มีพารามิเตอร์มากขึ้นมีความยืดหยุ่นในการปรับพอดีดังนั้นแน่นอนว่าการวัดที่เหมาะสมของสารตกค้างไม่ควรเพิ่มขึ้นเมื่อแทนที่ Poisson GLM โดย NB GLM " ฉันสงสัยว่าสัญชาตญาณดังกล่าวถูกต้องจริงหรือไม่

— whuber

ถ้า

X \sim Poisson (λ)

$X\sim\text{Poisson}(\lambda)$ ,

E [X] = V [X] = λ

$E[X]=V[X]=\lambda$ . ถ้า

X \sim NegBin (r, p)

$X\sim\text{NegBin}(r,p)$ ,

E [X] = p r / (1 - p)

$E[X]=pr/(1-p)$ และ

V [X] = p r / (1 - p)^{2}

$V[X]=pr/(1-p)^2$ . ดังนั้นแปรปรวน Poisson เท่ากับค่าเฉลี่ยแปรปรวน NegBin เป็นขนาดใหญ่กว่าค่าเฉลี่ย (

p < 1 \Rightarrow (1 - p)^{2} < (1 - p)

$p<1\Rightarrow (1-p)^2<(1-p)$ ) นี่คือสาเหตุที่ "ส่วนเบี่ยงเบนมาตรฐานที่เกี่ยวข้องกับการแจกแจงปัวซงส์นั้นเล็กกว่าของทวินามลบ"

— Sergio

@Sergio ประเด็นสำคัญของเรื่องนี้ก็คือในโมเดลปัวซองเรากำลังทำงานกับการประมาณ

\hat{λ}

$\hat\lambda$ ค่อนข้างมากกว่า

λ

$\lambda$ ตัวเองและในรูปแบบ NB เรากำลังทำงานคล้ายกันกับสองประมาณการ

\hat{r}

$\hat{r}$ และ

\hat{p}

$\hat{p}$ . การเปรียบเทียบของคุณจึงไม่มีผลโดยตรง โดยไม่ได้จดสูตรสำหรับ MLEs ทั้งสองแบบจริง ๆ แล้วมันไม่ชัดเจนเลยว่าความสัมพันธ์จะต้องเป็นอย่างไรระหว่างชุดการประมาณเหล่านั้น นอกจากนี้เพียร์สันที่เหลือเป็นอัตราส่วนและการโต้แย้งเกี่ยวกับความแปรปรวนที่อยู่เฉพาะส่วนซึ่งเป็นเพียงครึ่งเรื่อง

— whuber

การประมาณ MLE นั้นสอดคล้องกัน ปัญหาคือเมื่อ gung กล่าวว่า "การนับจะถูกกระจายเป็นเครื่องแบบในประชากรนั่นคือความแปรปรวนของพวกเขาจะไม่เท่ากับค่าเฉลี่ยของพวกเขา" คุณจะไม่สามารถรับค่าความแปรปรวนปัวซองที่ประเมินได้สูงกว่าค่าประมาณ ปัวซองหมายถึงแม้ว่าการคาดการณ์ของคุณจะเป็นกลางและสอดคล้องกัน มันเป็นปัญหาของการสะกดผิด

— Sergio

สำหรับรุ่นปัวซองถ้ามีการคาดการณ์ไว้สำหรับ $i$ การสังเกต $Y_i$ คือ $\mu_i$ ความแปรปรวนของมันคือ $\mu_i$ และเพียร์สันจึงตกค้าง

\frac{y_{i} - {\hat{μ}}_{i}}{\sqrt{{\hat{μ}}_{i}}}

$\frac{y_i-\hat\mu_i}{\sqrt{\hat\mu_i}}$

ที่ไหน $\hat\mu$ เป็นค่าประมาณของค่าเฉลี่ย และตัวแปรของรูปแบบทวินามเชิงลบที่ใช้ในMASSจะมีการอธิบายที่นี่ หากคาดหวังไว้สำหรับ $i$ การสังเกต $Y_i$ คือ $\mu_i$ ความแปรปรวนของมันคือ $\mu_i + \frac{\mu^2}{\theta}$ และเพียร์สันจึงตกค้าง

\frac{y_{i} - {\tilde{μ}}_{i}}{\sqrt{{\tilde{μ}}_{i} + \frac{{\tilde{μ}}^{' 2}}{θ}}}

$\frac{y_i-\tilde\mu_i}{\sqrt{\tilde\mu_i+\frac{\tilde\mu'^2}{\theta}}}$

ที่ไหน $\tilde\mu$ เป็นค่าประมาณของค่าเฉลี่ย ยิ่งค่าของ $\theta$ - นั่นคือความแปรปรวนแบบปัวซองที่มากขึ้น - ยิ่งมีปริมาณน้อยกว่าเมื่อเทียบกับปัวซองที่เทียบเท่า [แต่เมื่อ @whuber ได้ชี้ให้เห็นการประมาณของค่าเฉลี่ยนั้นไม่เหมือนกัน $\hat\mu\neq\tilde\mu$ เนื่องจากขั้นตอนการประมาณน้ำหนักทำการสังเกตตามความแปรปรวนที่สันนิษฐาน ถ้าคุณจะทำการวัดซ้ำสำหรับ $i$ รูปแบบการทำนายพวกเขาจะเข้าใกล้ & โดยทั่วไปการเพิ่มพารามิเตอร์ควรให้พอดีกับการสังเกตทั้งหมดแม้ว่าฉันจะไม่รู้วิธีสาธิตสิ่งนี้อย่างจริงจัง ในทำนองเดียวกันปริมาณประชากรที่คุณประเมินมีขนาดใหญ่กว่าหากแบบจำลองของปัวซองถืออยู่ดังนั้นจึงไม่น่าแปลกใจเลย]

— Scortchi - Reinstate Monica
แหล่งที่มา

ขอบคุณที่แนะนำสมการบางอย่าง แต่เป็น

μ_{i}

$\mu_i$ ในสองรุ่นจะมีค่าเท่ากันหรือไม่ (ฉันไม่คิดอย่างนั้น) ถ้าไม่เช่นนั้นจะเป็นไปได้อย่างไรที่จะเปรียบเทียบส่วนที่เหลือของเพียร์สัน

— whuber

@whuber ในกรณีนี้ปรากฎว่าค่าติดตั้งสำหรับทั้งสองรุ่นเกือบจะเหมือนกัน ท้ายที่สุดแล้วโมเดล "ของจริง" นั้นมีเพียงการสกัดกั้นและเป็นการจำลองแบบค่าเฉลี่ยเนื่องจากไม่มีความสัมพันธ์ระหว่าง x และ Y ในการจำลอง

— jsk

@jsk ใช่ฉันได้ดูข้อมูลและเรียกใช้รหัสแล้ว (BTW เป็นไปได้ที่จะเปลี่ยนข้อมูลและได้รับสถิติการกระจายตัวที่เหมือนกันสำหรับทั้งสองรุ่น) อนิจจาจุดของคุณที่ถูกต้องยังไม่ได้ตั้งคำถามเฉพาะและไม่ได้ตอบคำถามทั่วไป (โดยนัย) เกี่ยวกับ การเปรียบเทียบค่าปัวซงที่เหลือกับค่า NB เนื่องจากค่าความแปรปรวนโดยประมาณอาจเหมือนกัน แง่มุมหนึ่งที่อาจทำให้สับสนเกี่ยวกับคำตอบปัจจุบันคือการใช้สัญลักษณ์ "

μ_{i}

$\mu_i$ "เพื่ออ้างถึงสิ่งที่ (ตามหลักการ) อาจเป็นค่าประมาณที่แตกต่างกันในสองแบบจำลองของข้อมูลเดียวกัน

— whuber

@whuber แน่นอนคุณมีคะแนนที่ถูกต้องเกี่ยวกับการใช้

μ_{i}

$\mu_i$ . น่าสนใจฉันไม่สามารถหาวิธีจำลองข้อมูลที่จะส่งผลให้สถิติการกระจายตัวของ Poisson ต่ำกว่า NB บางทีมันเป็นไปไม่ได้? ฉันยอมรับว่าสิ่งนี้ทำให้รู้สึกอย่างสังหรณ์ใจ ไม่ใช่เรื่องง่ายที่จะพิสูจน์เนื่องจากไม่มีโซลูชันแบบปิดสำหรับ mle เมื่อคุณมี glm พร้อมฟังก์ชันลิงก์อื่นที่ไม่ใช่ตัวตน แต่ใช่มันง่ายที่จะทำให้สถิติการกระจายตัวสองแบบนั้นคล้ายกันมาก

— jsk

@jsk - ข้อโต้แย้งเชิงทฤษฎีหนึ่งที่สงสัยว่าแบบจำลอง NB มักจะดีกว่าปัวซองอยู่เสมอนั่นคือคุณสามารถเขียน NB เป็นการกระจายแบบพัวส์ - แกมม่าได้ ดังนั้นคุณมี

(y_{i} | λ, v_{i}, r) \sim P o i s s o n (λ v_{i})

$( y_i|\lambda, v_i, r)\sim Poisson (\lambda v_i)$ แล้ว

(v_{i} | λ, r) \sim G a m m a (r, r)

$(v_i|\lambda, r)\sim Gamma(r, r)$ ให้แบบจำลองทวินามลบ

(y_{i} | λ, r) \sim N B (r, \frac{λ}{r + λ})

$( y_i|\lambda, r)\sim NB (r,\frac {\lambda}{r+\lambda} )$ . ตอนนี้นอกเหนือจากนั้น

v_{i}

$v_i$ พารามิเตอร์ช่วยให้แบบจำลองทำให้ค่าเฉลี่ยที่คาดการณ์ไว้ใกล้เคียงกับค่าที่สังเกตได้มากขึ้น (เมื่อ

y_{i} > λ

$y_i>\lambda$ คุณจะเห็น

v_{i} > 1

$v_i> 1$ ลดความตกค้าง)

— ความน่าจะเป็นที่จะเกิดขึ้น