ความสำเร็จของการทดลองใน Bernoulli ด้วยความน่าจะเป็นที่แตกต่างกัน


11

หากมีการทดลอง Bernoulli อิสระ 20 ครั้งโดยแต่ละคนมีความน่าจะเป็นที่จะประสบความสำเร็จแตกต่างกันและล้มเหลว ความน่าจะเป็นที่การทดลองใช้ n จาก 20 ครั้งนั้นประสบความสำเร็จอย่างไร

มีวิธีที่ดีกว่าในการคำนวณความน่าจะเป็นเหล่านี้แทนที่จะรวมเข้าด้วยกันเป็นการรวมกันของความสำเร็จและความล้มเหลวที่เป็นไปได้หรือไม่?

คำตอบ:


12

การกระจายที่คุณถามเกี่ยวกับการกระจายตัวที่เรียกว่าPoisson Binomialซึ่งมี PMF ค่อนข้างซับซ้อน (ดู Wikipedia สำหรับคำอธิบายที่กว้างขึ้น)

ราคา(X=x)=ΣAFxΠผมAพีผมΠJA(1-พีJ)

โดยทั่วไปปัญหาคือคุณไม่สามารถใช้สมการนี้สำหรับการทดลองจำนวนมากขึ้น (โดยทั่วไปเมื่อจำนวนการทดลองเกิน ) นอกจากนี้ยังมีวิธีอื่นในการคำนวณ pmf เช่นสูตรแบบเรียกซ้ำ แต่มันไม่เสถียรเชิงตัวเลข วิธีที่ง่ายที่สุดในการแก้ไขปัญหาเหล่านั้นคือวิธีการประมาณ (เช่นอธิบายโดยHong, 2013 ) ถ้าเรากำหนดn=30

μ=Σผม=1nพีผม

σ=Σผม=1nพีผม(1-พีผม)

γ=σ-3Σผม=1nพีผม(1-พีผม)(1-2พีผม)

จากนั้นเราสามารถประมาณ pmf ด้วยการแจกแจงปัวซองผ่านกฏหมายจำนวนน้อยหรือทฤษฎีบทเลอแคม

ราคา(X=x)μxประสบการณ์(-μ)x!

แต่จะเห็นได้ว่าการประมาณแบบทวินามโดยทั่วไปจะทำงานได้ดีกว่า ( Choi และ Xia, 2002 )

ราคา(X=x)Bผมnโอม.(n,μn)

คุณสามารถใช้การประมาณปกติ

(x)φ(x+0.5-μσ)

หรือ cdf สามารถประมาณค่าได้โดยใช้สิ่งที่เรียกว่าการประมาณปกติแบบละเอียด (Volkova, 1996)

F(x)สูงสุด(0, ก.(x+0.5-μσ))

ที่{6}ก.(x)=Φ(x)+γ(1-x2)φ(x)6

อีกทางเลือกหนึ่งคือการจำลองสถานการณ์ของ Monte Carlo

dpbinomฟังก์ชั่น R ง่ายจะเป็น

dpbinom <- function(x, prob, log = FALSE,
                    method = c("MC", "PA", "NA", "BA"),
                    nsim = 1e4) {

  stopifnot(all(prob >= 0 & prob <= 1))
  method <- match.arg(method)

  if (method == "PA") {
    # poisson
    dpois(x, sum(prob), log)
  } else if (method == "NA") {
    # normal
    dnorm(x, sum(prob), sqrt(sum(prob*(1-prob))), log)
  } else if (method == "BA") {
    # binomial
    dbinom(x, length(prob), mean(prob), log)
  } else {
    # monte carlo
    tmp <- table(colSums(replicate(nsim, rbinom(length(prob), 1, prob))))
    tmp <- tmp/sum(tmp)
    p <- as.numeric(tmp[as.character(x)])
    p[is.na(p)] <- 0

    if (log) log(p)
    else p 
  }
}

วิธีการส่วนใหญ่ (และอื่น ๆ ) ถูกนำไปใช้ในแพ็คเกจR poibin


เฉิน, LHY (1974) ในการบรรจบกันของปัวซองทวินามกับการแจกแจงปัวซง พงศาวดารแห่งความน่าจะเป็น, 2 (1), 178-180

เฉิน, SX และ Liu, JS (1997) การประยุกต์ทางสถิติของการแจกแจงแบบปัวซอง - ทวินามและการแจกแจงแบบมีเงื่อนไข Statistica Sinica 7, 875-892

เฉิน, SX (1993) ปัวซอง - ทวินามการแจกแจงแบบมีเงื่อนไขเบอร์นูลลีและเอนโทรปีสูงสุด รายงานทางเทคนิค. ภาควิชาสถิติมหาวิทยาลัยฮาร์วาร์ด

เฉิน, XH, Dempster, AP และ Liu, JS (1994) การสุ่มตัวอย่างประชากรแบบ จำกัด จำนวนถ่วงน้ำหนักเพื่อเพิ่มความเอนโทรปี Biometrika 81, 457-469

วัง, YH (1993) ในจำนวนของความสำเร็จในการทดลองอิสระ Statistica Sinica 3 (2): 295-312

Hong, Y. (2013) ในการคำนวณฟังก์ชั่นการกระจายสำหรับการแจกแจงแบบทวินาม สถิติการคำนวณและการวิเคราะห์ข้อมูล, 59, 41-51

Volkova, AY (1996) การปรับแต่งของทฤษฎีขีด จำกัด กลางสำหรับผลรวมของตัวชี้วัดแบบสุ่มอิสระ ทฤษฎีความน่าจะเป็นและการประยุกต์ 40, 791-794

Choi, KP และ Xia, A. (2002) ประมาณจำนวนความสำเร็จในการทดลองอิสระ: ทวินามกับปัวซอง พงศาวดารของความน่าจะเป็นประยุกต์, 14 (4), 1139-1148

Le Cam, L. (1960) ทฤษฎีบทการประมาณสำหรับการแจกแจงแบบสองมิติของปัวซอง วารสารคณิตศาสตร์แปซิฟิก 10 (4), 1181–1197


0

วิธีหนึ่งคือการใช้ฟังก์ชั่นการสร้าง วิธีแก้ปัญหาของคุณคือสัมประสิทธิ์ในพหุนามxn

Πผม=120(พีผมx+1-พีผม).

นี่คือการเขียนโปรแกรมแบบไดนามิกเทียบเท่า (เวลากำลังสองในจำนวนตัวแปร Bernoulli) ของการทำผลรวมในการกระจาย Poisson Binomial จากคำตอบของทิม (ซึ่งจะเป็นเวลาชี้แจง)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.