เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง


9

ฉันมีข้อมูลเหล่านี้:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

ฉันใช้การถดถอยปัวซอง

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

และการถดถอยแบบทวินามลบ

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

และการถดถอยแบบทวินามลบ

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง

คำตอบ:


9

สิ่งนี้ค่อนข้างตรงไปตรงมา แต่ "โดยไม่ต้องใช้สมการ" เป็นอุปสรรคอย่างมาก ฉันสามารถอธิบายได้ด้วยคำพูด แต่คำเหล่านั้นจำเป็นต้องสะท้อนสมการ ฉันหวังว่าจะเป็นที่ยอมรับ / ยังคงมีคุณค่าสำหรับคุณ (สมการที่เกี่ยวข้องนั้นไม่ยาก)

มีของเหลือใช้หลายประเภท เศษซากดิบเป็นเพียงความแตกต่างระหว่างค่าการตอบสนองที่สังเกตได้ (ในกรณีของคุณcounts) และค่าการตอบสนองที่คาดการณ์ของแบบจำลอง ส่วนที่เหลือของเพียร์สันหารด้วยส่วนเบี่ยงเบนมาตรฐาน (สแควร์รูทของฟังก์ชันความแปรปรวนสำหรับรุ่นเฉพาะของโมเดลเชิงเส้นทั่วไปที่คุณกำลังใช้)

ค่าเบี่ยงเบนมาตรฐานที่เกี่ยวข้องกับการกระจาย Poissonมีขนาดเล็กกว่าของทวินามเชิงลบ ดังนั้นเมื่อคุณหารด้วยตัวหารที่ใหญ่กว่า

นอกจากนี้ทวินามลบก็เหมาะสมกับคดีของคุณมากกว่าเพราะคุณcountsจะถูกแจกจ่ายเป็นเครื่องแบบในประชากร นั่นคือความแปรปรวนของพวกเขาจะไม่เท่ากับค่าเฉลี่ยของพวกเขา


4
ถึงแม้ว่า OP จะขอคำอธิบายที่ไม่ใช่ทางคณิตศาสตร์ แต่ก็ยังเป็นการดีที่ได้เห็นการให้เหตุผลทางคณิตศาสตร์ เมื่ออ่านคำถามปรีชาของฉันก็คือ "เพราะปัวซองเป็นกรณีพิเศษ (จำกัด ) ของ NB และ NB มีพารามิเตอร์มากขึ้นมีความยืดหยุ่นในการปรับพอดีดังนั้นแน่นอนว่าการวัดที่เหมาะสมของสารตกค้างไม่ควรเพิ่มขึ้นเมื่อแทนที่ Poisson GLM โดย NB GLM " ฉันสงสัยว่าสัญชาตญาณดังกล่าวถูกต้องจริงหรือไม่
whuber

ถ้า XPoisson(λ), E[X]=V[X]=λ. ถ้าXNegBin(r,p), E[X]=pr/(1p) และ V[X]=pr/(1p)2. ดังนั้นแปรปรวน Poisson เท่ากับค่าเฉลี่ยแปรปรวน NegBin เป็นขนาดใหญ่กว่าค่าเฉลี่ย (p<1(1p)2<(1p)) นี่คือสาเหตุที่ "ส่วนเบี่ยงเบนมาตรฐานที่เกี่ยวข้องกับการแจกแจงปัวซงส์นั้นเล็กกว่าของทวินามลบ"
Sergio

3
@Sergio ประเด็นสำคัญของเรื่องนี้ก็คือในโมเดลปัวซองเรากำลังทำงานกับการประมาณ λ^ ค่อนข้างมากกว่า λ ตัวเองและในรูปแบบ NB เรากำลังทำงานคล้ายกันกับสองประมาณการ r^ และ p^. การเปรียบเทียบของคุณจึงไม่มีผลโดยตรง โดยไม่ได้จดสูตรสำหรับ MLEs ทั้งสองแบบจริง ๆ แล้วมันไม่ชัดเจนเลยว่าความสัมพันธ์จะต้องเป็นอย่างไรระหว่างชุดการประมาณเหล่านั้น นอกจากนี้เพียร์สันที่เหลือเป็นอัตราส่วนและการโต้แย้งเกี่ยวกับความแปรปรวนที่อยู่เฉพาะส่วนซึ่งเป็นเพียงครึ่งเรื่อง
whuber

การประมาณ MLE นั้นสอดคล้องกัน ปัญหาคือเมื่อ gung กล่าวว่า "การนับจะถูกกระจายเป็นเครื่องแบบในประชากรนั่นคือความแปรปรวนของพวกเขาจะไม่เท่ากับค่าเฉลี่ยของพวกเขา" คุณจะไม่สามารถรับค่าความแปรปรวนปัวซองที่ประเมินได้สูงกว่าค่าประมาณ ปัวซองหมายถึงแม้ว่าการคาดการณ์ของคุณจะเป็นกลางและสอดคล้องกัน มันเป็นปัญหาของการสะกดผิด
Sergio

5

สำหรับรุ่นปัวซองถ้ามีการคาดการณ์ไว้สำหรับ iการสังเกต Yi คือ μi ความแปรปรวนของมันคือ μiและเพียร์สันจึงตกค้าง

yiμ^iμ^i

ที่ไหน μ^เป็นค่าประมาณของค่าเฉลี่ย และตัวแปรของรูปแบบทวินามเชิงลบที่ใช้ในMASSจะมีการอธิบายที่นี่ หากคาดหวังไว้สำหรับiการสังเกต Yi คือ μi ความแปรปรวนของมันคือ μi+μ2θและเพียร์สันจึงตกค้าง

yiμ~iμ~i+μ~2θ

ที่ไหน μ~เป็นค่าประมาณของค่าเฉลี่ย ยิ่งค่าของθ- นั่นคือความแปรปรวนแบบปัวซองที่มากขึ้น - ยิ่งมีปริมาณน้อยกว่าเมื่อเทียบกับปัวซองที่เทียบเท่า [แต่เมื่อ @whuber ได้ชี้ให้เห็นการประมาณของค่าเฉลี่ยนั้นไม่เหมือนกันμ^μ~เนื่องจากขั้นตอนการประมาณน้ำหนักทำการสังเกตตามความแปรปรวนที่สันนิษฐาน ถ้าคุณจะทำการวัดซ้ำสำหรับiรูปแบบการทำนายพวกเขาจะเข้าใกล้ & โดยทั่วไปการเพิ่มพารามิเตอร์ควรให้พอดีกับการสังเกตทั้งหมดแม้ว่าฉันจะไม่รู้วิธีสาธิตสิ่งนี้อย่างจริงจัง ในทำนองเดียวกันปริมาณประชากรที่คุณประเมินมีขนาดใหญ่กว่าหากแบบจำลองของปัวซองถืออยู่ดังนั้นจึงไม่น่าแปลกใจเลย]


1
ขอบคุณที่แนะนำสมการบางอย่าง แต่เป็นμiในสองรุ่นจะมีค่าเท่ากันหรือไม่ (ฉันไม่คิดอย่างนั้น) ถ้าไม่เช่นนั้นจะเป็นไปได้อย่างไรที่จะเปรียบเทียบส่วนที่เหลือของเพียร์สัน
whuber

@whuber ในกรณีนี้ปรากฎว่าค่าติดตั้งสำหรับทั้งสองรุ่นเกือบจะเหมือนกัน ท้ายที่สุดแล้วโมเดล "ของจริง" นั้นมีเพียงการสกัดกั้นและเป็นการจำลองแบบค่าเฉลี่ยเนื่องจากไม่มีความสัมพันธ์ระหว่าง x และ Y ในการจำลอง
jsk

1
@jsk ใช่ฉันได้ดูข้อมูลและเรียกใช้รหัสแล้ว (BTW เป็นไปได้ที่จะเปลี่ยนข้อมูลและได้รับสถิติการกระจายตัวที่เหมือนกันสำหรับทั้งสองรุ่น) อนิจจาจุดของคุณที่ถูกต้องยังไม่ได้ตั้งคำถามเฉพาะและไม่ได้ตอบคำถามทั่วไป (โดยนัย) เกี่ยวกับ การเปรียบเทียบค่าปัวซงที่เหลือกับค่า NB เนื่องจากค่าความแปรปรวนโดยประมาณอาจเหมือนกัน แง่มุมหนึ่งที่อาจทำให้สับสนเกี่ยวกับคำตอบปัจจุบันคือการใช้สัญลักษณ์ "μi"เพื่ออ้างถึงสิ่งที่ (ตามหลักการ) อาจเป็นค่าประมาณที่แตกต่างกันในสองแบบจำลองของข้อมูลเดียวกัน
whuber

1
@whuber แน่นอนคุณมีคะแนนที่ถูกต้องเกี่ยวกับการใช้ μi. น่าสนใจฉันไม่สามารถหาวิธีจำลองข้อมูลที่จะส่งผลให้สถิติการกระจายตัวของ Poisson ต่ำกว่า NB บางทีมันเป็นไปไม่ได้? ฉันยอมรับว่าสิ่งนี้ทำให้รู้สึกอย่างสังหรณ์ใจ ไม่ใช่เรื่องง่ายที่จะพิสูจน์เนื่องจากไม่มีโซลูชันแบบปิดสำหรับ mle เมื่อคุณมี glm พร้อมฟังก์ชันลิงก์อื่นที่ไม่ใช่ตัวตน แต่ใช่มันง่ายที่จะทำให้สถิติการกระจายตัวสองแบบนั้นคล้ายกันมาก
jsk

1
@jsk - ข้อโต้แย้งเชิงทฤษฎีหนึ่งที่สงสัยว่าแบบจำลอง NB มักจะดีกว่าปัวซองอยู่เสมอนั่นคือคุณสามารถเขียน NB เป็นการกระจายแบบพัวส์ - แกมม่าได้ ดังนั้นคุณมี(yi|λ,vi,r)Poisson(λvi) แล้ว (vi|λ,r)Gamma(r,r) ให้แบบจำลองทวินามลบ (yi|λ,r)NB(r,λr+λ). ตอนนี้นอกเหนือจากนั้นvi พารามิเตอร์ช่วยให้แบบจำลองทำให้ค่าเฉลี่ยที่คาดการณ์ไว้ใกล้เคียงกับค่าที่สังเกตได้มากขึ้น (เมื่อ yi>λ คุณจะเห็น vi>1ลดความตกค้าง)
ความน่าจะเป็นที่จะเกิดขึ้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.