ช่วงความเชื่อมั่นสำหรับการสุ่มตัวอย่าง Bernoulli


42

ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จักX1...XNXiP(Xi=1)=pp

เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : Npp^:=(X1++XN)/N

คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไรp


2
วิกิพีเดียมีรายละเอียดเกี่ยวกับวิธีการคำนวณช่วงความเชื่อมั่นสำหรับการสุ่มตัวอย่าง Bernoulli

คำตอบ:


52
  • หากค่าเฉลี่ยไม่ใกล้หรือและขนาดตัวอย่างมีขนาดใหญ่พอ (เช่นและความมั่นใจ ช่วงเวลาสามารถประมาณได้โดยการแจกแจงแบบปกติและช่วงความเชื่อมั่นที่สร้างจึง:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • ถ้า และที่ช่วงความเชื่อมั่นจะอยู่ที่ประมาณ (Javanovic และประกาศ 1997) ; ตรงข้ามถือสำหรับ 1 การอ้างอิงยังกล่าวถึงการใช้และ (ซึ่งภายหลังเพื่อรวมข้อมูลก่อนหน้านี้)p^=0n>3095%[0,3n] p^=1n+1n+b

  • วิกิพีเดียอื่นให้ภาพรวมที่ดีและชี้ไปที่ Agresti และ Couli (1998) และ Ross (2003) เพื่อดูรายละเอียดเกี่ยวกับการใช้ประมาณการนอกเหนือจากการประมาณปกติคะแนนวิลสัน Clopper-Pearson หรือ Agresti-Coull สิ่งเหล่านี้มีความแม่นยำมากขึ้นเมื่อสมมติฐานด้านบนเกี่ยวกับและไม่ตรงnp^

R จัดเตรียมฟังก์ชันbinconf {Hmisc}และbinom.confint {binom}สิ่งที่สามารถใช้ในลักษณะดังต่อไปนี้

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti อลัน; Coull, Brent A. (1998) "โดยประมาณดีกว่า 'แน่นอน' สำหรับการประมาณค่าช่วงของสัดส่วนทวินาม" นักสถิติชาวอเมริกัน 52: 119–126

Jovanovic, BD และ PS Levy, 1997 ดูกฎของสาม ฉบับสถิติอเมริกัน 51, ฉบับที่ 2, หน้า 137-139

Ross, TD (2003) "ช่วงความเชื่อมั่นที่แม่นยำสำหรับสัดส่วนทวินามและการประมาณอัตราปัวซอง" คอมพิวเตอร์ในชีววิทยาและการแพทย์ 33: 509–531


3
(+1) คำตอบที่ดี ฉันคิดว่านี่จะเป็นข้อมูลอ้างอิงสำหรับคำถามที่คล้ายกันในอนาคต อย่างไรก็ตามการโพสต์ข้ามเป็นเรื่องผิดปกติ ในความเป็นจริงฉันเชื่อว่ามันขมวดคิ้วเพราะมันทำให้หลายแง่มุมของระบบป้อนกลับ / อ้างอิง / ทำเกลียว / แสดงความคิดเห็น โปรดพิจารณาลบหนึ่งในสำเนาและแทนที่ด้วยลิงก์ในความคิดเห็น
whuber

@whuber ขอบคุณสำหรับข้อเสนอแนะ ฉันลบสำเนาอื่นแล้ว
David LeBauer

ในสูตรแรก z1 และ alpha คืออะไร
Cirdec

ฉันพบคำตอบสำหรับคำถามของฉันเอง:คือเปอร์เซนต์ของการแจกแจงแบบปกติมาตรฐานและคือเปอร์เซนต์ข้อผิดพลาด en.wikipedia.org/wiki/Binomial_proportion_confidence_interval 1 - α / 2 αz1α/21α/2α
Cirdec

นั่นควรเป็นในช่วงความเชื่อมั่นของสัญลักษณ์แสดงหัวข้อย่อยที่สองหรือไม่ 3/n
Juan A. Navarro

7

ช่วงความมั่นใจโอกาสสูงสุด

การประมาณค่าปกติของตัวอย่างเบอร์นูลลีนั้นอาศัยขนาดตัวอย่างและสัดส่วนตัวอย่างที่ค่อนข้างไกลจากก้อย การประเมินความน่าจะเป็นสูงสุดนั้นมุ่งเน้นไปที่อัตราต่อรองที่เปลี่ยนรูปซึ่งจะให้ช่วงเวลาที่ไม่สมมาตรและมีประสิทธิภาพสำหรับที่ควรใช้แทนp

กำหนดอัตราต่อรองเป็นβ^0=log(p^/(1p^))

ได้รับ 1- CI สำหรับโดย:αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

และนี่คือการแปลงกลับเป็นช่วงเวลา (ไม่สมมาตร) สำหรับด้วย:p

CI(p)α=1/(1+exp(CI(β0)α)

CI นี้มีประโยชน์เพิ่มเติมที่สัดส่วนอยู่ในช่วงระหว่าง 0 หรือ 1 และ CI จะแคบกว่าช่วงเวลาปกติในขณะที่อยู่ในระดับที่ถูกต้องเสมอ คุณสามารถหาได้ง่ายใน R โดยการระบุ:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

ช่วงความเชื่อมั่นทวินามที่แน่นอน

ในตัวอย่างขนาดเล็กการประมาณค่าปกติถึง MLE - ในขณะที่ดีกว่าการประมาณแบบปกติกับสัดส่วนตัวอย่าง - อาจไม่น่าเชื่อถือ ไม่เป็นไร สามารถนำไปตามความหนาแน่นทวินามขอบเขตสำหรับสามารถพบได้โดยใช้เปอร์เซ็นต์ที่ 2.5 และ 97.5-th จากการแจกแจงนี้Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

เป็นไปได้ด้วยมือเปล่าช่วงความเชื่อมั่นทวินามที่แน่นอนสามารถรับได้สำหรับโดยใช้วิธีการคำนวณp

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

ค่ามัธยฐานช่วงความเชื่อมั่นที่เป็นกลาง

และถ้าเป็น 0 หรือ 1 แน่นอนตัวประมาณค่ากลางที่ไม่เอนเอียงสามารถใช้เพื่อให้ได้ค่าประมาณช่วงเวลาที่ไม่ใช่เอกพจน์โดยขึ้นอยู่กับฟังก์ชันความน่าจะเป็นแบบค่ามัธยฐานแบบเป็นกลาง คุณสามารถใช้ขอบเขตล่างของเคสทั้งหมด -0 เป็น 0 WLOG ขอบเขตบนคือสัดส่วนใด ๆที่สอดคล้องกับ:pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

นี่เป็นกิจวัตรการคำนวณด้วยเช่นกัน

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

วิธีการสองวิธีสุดท้ายถูกนำไปใช้ในepitoolsแพ็คเกจใน R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.