การกระจายความน่าจะเป็นของผลรวมสุ่มของตัวแปรที่ไม่ใช่ของ iid Bernoulli คืออะไร


9

ฉันพยายามค้นหาการกระจายความน่าจะเป็นของผลรวมของตัวแปรสุ่มจำนวนหนึ่งที่ไม่ได้กระจายตัวแบบเดียวกัน นี่คือตัวอย่าง:

จอห์นทำงานที่ศูนย์บริการลูกค้า เขารับสายที่มีปัญหาและพยายามแก้ปัญหา สิ่งที่เขาไม่สามารถแก้ไขได้เขาจะส่งต่อไปยังหัวหน้าของเขา สมมติว่าจำนวนการโทรที่เขาได้รับในหนึ่งวันเป็นไปตามการแจกแจงปัวซองด้วยค่าเฉลี่ยμ. ความยากลำบากของแต่ละปัญหาแตกต่างกันไปจากสิ่งที่เรียบง่าย (ซึ่งเขาสามารถจัดการได้อย่างแน่นอน) กับคำถามที่พิเศษมากซึ่งเขาไม่รู้วิธีแก้ปัญหา สมมติว่าความน่าจะเป็นที่เขาจะสามารถแก้ปัญหาi -th ตามการแจกแจงแบบเบต้าพร้อมพารามิเตอร์และและเป็นอิสระจากปัญหาก่อนหน้านี้ จำนวนการโทรติดต่อที่เขาแก้ไขในแต่ละวันคือเท่าไหร่?piαβ

เป็นทางการมากขึ้นฉันมี:

Y=I(N>0)i=0NXi สำหรับ i=0,1,2,...,N

ที่ ,และNPoisson(μ)(Xi|pi)Bernoulli(pi)piBeta(α,β)

โปรดทราบว่าสำหรับตอนนี้ฉันยินดีที่จะสมมติว่า Xiเป็นอิสระ ฉันก็ยอมรับว่าพารามิเตอร์μ,α และ β ไม่ส่งผลกระทบซึ่งกันและกันแม้ว่าในตัวอย่างจริงของเรื่องนี้เมื่อใด μ มีขนาดใหญ่พารามิเตอร์ α และ β เป็นเช่นนั้นเพื่อให้การกระจายเบต้ามีจำนวนมากขึ้นในอัตราความสำเร็จต่ำ p. แต่ตอนนี้เราไม่สนใจ

ฉันสามารถคำนวณ P(Y=0)แต่มันเกี่ยวกับมัน ฉันยังสามารถจำลองค่านิยมเพื่อให้ได้แนวคิดเกี่ยวกับการกระจายตัวของY ดูเหมือนว่า (ดูเหมือนว่า Poisson แต่ฉันไม่รู้ว่ามันลดลงไปตามจำนวนหรือไม่ μ,α และ βฉันพยายามหรือไม่ว่าจะเป็นการสรุปและวิธีการที่อาจเปลี่ยนแปลงค่าพารามิเตอร์ที่แตกต่างกัน) ความคิดของการกระจายตัวนี้คืออะไรหรือฉันจะไปเกี่ยวกับมันได้อย่างไร

โปรดทราบว่าฉันได้โพสต์คำถามนี้ไว้ในTalkStats Forum ด้วยแต่ฉันคิดว่ามันอาจได้รับความสนใจมากขึ้นที่นี่ ขออภัยในการข้ามโพสต์และขอขอบคุณล่วงหน้าสำหรับเวลาของคุณ

แก้ไข : ตามที่ปรากฏ (ดูคำตอบที่เป็นประโยชน์มากด้านล่าง - และขอบคุณสำหรับสิ่งเหล่านั้น!) มันแน่นอนPoisson(μαα+β)การแจกจ่ายสิ่งที่ฉันคาดเดาตามสัญชาตญาณและการจำลองบางอย่าง แต่ไม่สามารถพิสูจน์ได้ สิ่งที่ฉันพบว่าน่าประหลาดใจก็คือการกระจายปัวซองนั้นขึ้นอยู่กับค่าเฉลี่ยของBeta การกระจาย แต่ไม่ได้รับผลกระทบจากความแปรปรวน

ตัวอย่างการแจกแจงค่าเบต้าสองต่อไปนี้มีค่าเฉลี่ยเท่ากัน แต่ความแปรปรวนแตกต่างกัน เพื่อความชัดเจนไฟล์ pdf สีน้ำเงินหมายถึง aBeta(2,2) และสีแดง Beta(0.75,0.75).

Beta Distributions

อย่างไรก็ตามพวกเขาทั้งสองจะได้ผลเหมือนกัน Poisson(0.5μ)การกระจายซึ่งสำหรับฉันดูเหมือนเคาน์เตอร์ง่าย (ไม่ได้บอกว่าผลที่ออกมามันน่าประหลาดใจมาก!)


สำหรับการแก้ไข Nมีการแจกแจงแบบปัวซอง - ทวินามแต่ปัญหาของคุณซับซ้อนกว่านี้
ทิม

ขอบคุณฉันรู้ว่าการกระจาย Poisson-binomial แต่ Nสุ่มที่นี่
Constantinos

คุณอาจดูสารประกอบปัวซองแต่คุณอาจต้องทำงานกับ 0 เพื่อให้มีประโยชน์
Glen_b -Reinstate Monica

คำตอบ:


6

การโทร (นั่นคือ Xi) มาถึงตามกระบวนการปัวซอง จำนวนการโทรทั้งหมดNดังต่อไปนี้การกระจายปัวซอง แบ่งการโทรออกเป็นสองประเภทเช่นไม่ว่าจะXi=1 หรือ Xi=0. เป้าหมายคือการกำหนดกระบวนการที่สร้าง1s นี่เป็นเรื่องไม่สำคัญถ้าXi=1 ด้วยความน่าจะเป็นคงที่ p: โดยหลักการซ้อนทับของกระบวนการปัวซองกระบวนการเต็มรูปแบบบางเพียงแค่ 1s จะเป็นกระบวนการปัวซองด้วยอัตรา pμ. ในความเป็นจริงในกรณีนี้เราเพียงต้องการขั้นตอนเพิ่มเติมเพื่อไปที่นั่น

ชายขอบมากกว่า pi, ดังนั้น

Pr(Xi|α,β)=01piXi(1pi)1Xipiα1(1pi)β1B(α,β)dpi=B(Xi+α,1Xi+β)B(α,β)

Where B(a,b)=Γ(a)Γ(b)Γ(a+b) is the beta function. Using the fact that Γ(x+1)=xΓ(x), the above simplifies to;

Pr(Xi=1|α,β)=Γ(1+α)Γ(β)Γ(1+α+β)Γ(α+β)Γ(α)Γ(β)=αα+β
In other words, XiBernoulli(αα+β). By the superposition property, Y is Poisson distributed with rate αμα+β.

A numerical example (with R) ... in the figure, the vertical lines are from simulation and red points are the pmf derived above:

draw <- function(alpha, beta, mu) 
{ N <- rpois(1, mu); p = rbeta(N, alpha, beta); sum(rbinom(N, size=1, prob=p)) }

pmf <- function(y, alpha, beta, mu)
  dpois(y, alpha*mu/(alpha+beta))

y <- replicate(30000,draw(4,5,10))
tb <- table(y)

# simulated pmf
plot(tb/sum(tb), type="h", xlab="Y", ylab="Probability")
# analytic pmf
points(0:max(y), pmf(0:max(y), 4, 5, 10), col="red")

enter image description here


3
  1. Since pi is a random variable with a Beta(α,β) you have E[pi]=αα+β and this is in fact the probability that John actually solves the ith problem, independently of all the others.

  2. Since the total number of problems in a day has a Poisson distribution with parameter μ and each will be solved with probability αα+β, the number John solves each day has a Poisson distribution with parameter μαα+β

  3. Your calculation of the probability he does not solve any problems should be P(Y=0)=eμα/(α+β)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.