ทำความเข้าใจกับพารามิเตอร์ภายในการแจกแจงแบบทวินามลบ


37

ฉันพยายามใส่ข้อมูลของฉันเป็นแบบจำลองต่างๆและคิดว่าfitdistrฟังก์ชั่นจากไลบรารี่MASSของRให้ฉันNegative Binomialเป็นแบบที่ดีที่สุด ตอนนี้จากหน้าwikiคำจำกัดความได้รับเป็น:

การแจกแจง NegBin (r, p) อธิบายความน่าจะเป็นของความล้มเหลว k และความสำเร็จ r ในการทดลอง k + r Bernoulli (p) ด้วยความสำเร็จในการทดลองครั้งสุดท้าย

ใช้Rในการดำเนินการรูปแบบที่เหมาะสมให้ฉันสองพารามิเตอร์และmean dispersion parameterฉันไม่เข้าใจวิธีตีความสิ่งเหล่านี้เพราะฉันไม่เห็นพารามิเตอร์เหล่านี้ในหน้าวิกิ ทั้งหมดที่ฉันเห็นคือสูตรต่อไปนี้:

สูตรการแจกแจงแบบทวินามลบ

ที่เป็นจำนวนของการสังเกตและk r=0...nตอนนี้ฉันจะเชื่อมโยงสิ่งเหล่านี้กับพารามิเตอร์ที่กำหนดโดยได้Rอย่างไร ไฟล์ช่วยเหลือไม่ได้ให้ข้อมูลมากนัก

นอกจากนี้เพื่อพูดคำสองสามคำเกี่ยวกับการทดสอบของฉัน: ในการทดลองทางสังคมที่ฉันกำลังทำอยู่ฉันพยายามนับจำนวนผู้ใช้ที่ผู้ใช้แต่ละคนติดต่อในระยะเวลา 10 วัน ขนาดประชากรคือ 100 สำหรับการทดสอบ

ตอนนี้ถ้าแบบจำลองนั้นเหมาะกับเนกาทีฟทวินามลบฉันสามารถพูดได้ว่ามันเป็นไปตามการกระจายตัวนั้น แต่ฉันต้องการเข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังสิ่งนี้ หมายความว่าอย่างไรว่าจำนวนคนที่ได้รับการติดต่อจากการทดสอบของฉันนั้นมีการกระจายตัวแบบทวินามลบ มีใครช่วยอธิบายสิ่งนี้ได้ไหม

คำตอบ:


42

คุณควรดูบทความ Wikipedia เพิ่มเติมเกี่ยวกับ NBที่มีข้อความว่า "gamma-Poisson mix" ในขณะที่คำจำกัดความที่คุณอ้างถึง (ซึ่งฉันเรียกว่าคำนิยาม "coin-flipping" เนื่องจากฉันมักจะนิยามไว้สำหรับคลาสเป็น "สมมติว่าคุณต้องการพลิกเหรียญจนกว่าคุณจะได้รับkθ1/θθ


7
อืมม ฉันสงสัยว่าทำไม downvote
เบน Bolker

สูตร NB (หมายถึงการกระจาย) ยังได้อธิบายไว้ในส่วนของสูตรทางเลือก ( en.wikipedia.org/wiki/ ...... ) ในหน้าวิกินั้น
mt1022

10

ดังที่ฉันได้กล่าวถึงในโพสต์ก่อนหน้านี้ของคุณกับคุณฉันกำลังทำงานเพื่อให้หัวของฉันรอบการกระจายข้อมูลที่เหมาะสมเพื่อนับข้อมูลด้วย นี่คือสิ่งที่ฉันได้เรียนรู้:

เมื่อความแปรปรวนสูงกว่าค่าเฉลี่ยการกระจายตัวมากเกินจะเห็นได้ชัดและทำให้การกระจายแบบทวินามลบนั้นมีความเหมาะสม หากความแปรปรวนและค่าเฉลี่ยเท่ากันแนะนำให้ใช้การแจกแจงแบบปัวซองและเมื่อความแปรปรวนน้อยกว่าค่าเฉลี่ยการกระจายแบบทวินามก็จะแนะนำ

ด้วยการนับข้อมูลที่คุณกำลังทำอยู่คุณกำลังใช้การกำหนดพารามิเตอร์ "เชิงนิเวศน์" ของฟังก์ชันลบเนนามอลในอาร์มาตรา 4.5.1.3 (หน้า 165) ของหนังสือที่มีอิสระต่อไปนี้พูดถึงสิ่งนี้โดยเฉพาะ (ในบริบท ของ R ไม่น้อย!) และฉันหวังว่าอาจตอบคำถามของคุณบางส่วน:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

ถ้าคุณมาที่จะสรุปได้ว่าข้อมูลของคุณจะถูกตัดทอนเป็นศูนย์ (กล่าวคือน่าจะเป็นของ 0 สังเกตคือ 0) แล้วคุณอาจต้องการที่จะตรวจสอบรสชาติศูนย์ตัดทอนของ NBD ที่ใน R แพคเกจ VGAM

นี่คือตัวอย่างการใช้งาน:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

ฉันหวังว่านี้จะเป็นประโยชน์.


หน้า 165 ในหนังสือ
SmallChess
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.