การกระจายที่คุณถามเกี่ยวกับการกระจายตัวที่เรียกว่าPoisson Binomialซึ่งมี PMF ค่อนข้างซับซ้อน (ดู Wikipedia สำหรับคำอธิบายที่กว้างขึ้น)
ราคา( X= x ) = ∑A ∈ FxΠฉัน∈พีผมΠj ∈ Aค( 1 - pJ)
โดยทั่วไปปัญหาคือคุณไม่สามารถใช้สมการนี้สำหรับการทดลองจำนวนมากขึ้น (โดยทั่วไปเมื่อจำนวนการทดลองเกิน ) นอกจากนี้ยังมีวิธีอื่นในการคำนวณ pmf เช่นสูตรแบบเรียกซ้ำ แต่มันไม่เสถียรเชิงตัวเลข วิธีที่ง่ายที่สุดในการแก้ไขปัญหาเหล่านั้นคือวิธีการประมาณ (เช่นอธิบายโดยHong, 2013 ) ถ้าเรากำหนดn = 30
μ = ∑i = 1nพีผม
σ= ∑i = 1nพีผม( 1 - pผม)-----------√
γ= σ- 3Σi = 1nพีผม( 1 - pผม) ( 1 - 2 หน้าผม)
จากนั้นเราสามารถประมาณ pmf ด้วยการแจกแจงปัวซองผ่านกฏหมายจำนวนน้อยหรือทฤษฎีบทเลอแคม
ราคา( X= x ) ≈ μxประสบการณ์( - μ )x !
แต่จะเห็นได้ว่าการประมาณแบบทวินามโดยทั่วไปจะทำงานได้ดีกว่า ( Choi และ Xia, 2002 )
ราคา( X= x ) ≈ B ฉันn o m ( n , μn)
คุณสามารถใช้การประมาณปกติ
ฉ( x ) ≈ ϕ ( x + 0.5 - μσ)
หรือ cdf สามารถประมาณค่าได้โดยใช้สิ่งที่เรียกว่าการประมาณปกติแบบละเอียด (Volkova, 1996)
F( x ) ≈ สูงสุด( 0 , g ( x + 0.5 - μσ) )
ที่{6}ก.( x ) = Φ ( x ) + γ( 1 - x2) ϕ ( x )6
อีกทางเลือกหนึ่งคือการจำลองสถานการณ์ของ Monte Carlo
dpbinom
ฟังก์ชั่น R ง่ายจะเป็น
dpbinom <- function(x, prob, log = FALSE,
method = c("MC", "PA", "NA", "BA"),
nsim = 1e4) {
stopifnot(all(prob >= 0 & prob <= 1))
method <- match.arg(method)
if (method == "PA") {
# poisson
dpois(x, sum(prob), log)
} else if (method == "NA") {
# normal
dnorm(x, sum(prob), sqrt(sum(prob*(1-prob))), log)
} else if (method == "BA") {
# binomial
dbinom(x, length(prob), mean(prob), log)
} else {
# monte carlo
tmp <- table(colSums(replicate(nsim, rbinom(length(prob), 1, prob))))
tmp <- tmp/sum(tmp)
p <- as.numeric(tmp[as.character(x)])
p[is.na(p)] <- 0
if (log) log(p)
else p
}
}
วิธีการส่วนใหญ่ (และอื่น ๆ ) ถูกนำไปใช้ในแพ็คเกจR poibin
เฉิน, LHY (1974) ในการบรรจบกันของปัวซองทวินามกับการแจกแจงปัวซง พงศาวดารแห่งความน่าจะเป็น, 2 (1), 178-180
เฉิน, SX และ Liu, JS (1997) การประยุกต์ทางสถิติของการแจกแจงแบบปัวซอง - ทวินามและการแจกแจงแบบมีเงื่อนไข Statistica Sinica 7, 875-892
เฉิน, SX (1993) ปัวซอง - ทวินามการแจกแจงแบบมีเงื่อนไขเบอร์นูลลีและเอนโทรปีสูงสุด รายงานทางเทคนิค. ภาควิชาสถิติมหาวิทยาลัยฮาร์วาร์ด
เฉิน, XH, Dempster, AP และ Liu, JS (1994) การสุ่มตัวอย่างประชากรแบบ จำกัด จำนวนถ่วงน้ำหนักเพื่อเพิ่มความเอนโทรปี Biometrika 81, 457-469
วัง, YH (1993) ในจำนวนของความสำเร็จในการทดลองอิสระ Statistica Sinica 3 (2): 295-312
Hong, Y. (2013) ในการคำนวณฟังก์ชั่นการกระจายสำหรับการแจกแจงแบบทวินาม สถิติการคำนวณและการวิเคราะห์ข้อมูล, 59, 41-51
Volkova, AY (1996) การปรับแต่งของทฤษฎีขีด จำกัด กลางสำหรับผลรวมของตัวชี้วัดแบบสุ่มอิสระ ทฤษฎีความน่าจะเป็นและการประยุกต์ 40, 791-794
Choi, KP และ Xia, A. (2002) ประมาณจำนวนความสำเร็จในการทดลองอิสระ: ทวินามกับปัวซอง พงศาวดารของความน่าจะเป็นประยุกต์, 14 (4), 1139-1148
Le Cam, L. (1960) ทฤษฎีบทการประมาณสำหรับการแจกแจงแบบสองมิติของปัวซอง วารสารคณิตศาสตร์แปซิฟิก 10 (4), 1181–1197