ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จัก
เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : N
คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไร
ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จัก
เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : N
คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไร
คำตอบ:
หากค่าเฉลี่ยไม่ใกล้หรือและขนาดตัวอย่างมีขนาดใหญ่พอ (เช่นและความมั่นใจ ช่วงเวลาสามารถประมาณได้โดยการแจกแจงแบบปกติและช่วงความเชื่อมั่นที่สร้างจึง:
ถ้า และที่ช่วงความเชื่อมั่นจะอยู่ที่ประมาณ (Javanovic และประกาศ 1997) ; ตรงข้ามถือสำหรับ 1 การอ้างอิงยังกล่าวถึงการใช้และ (ซึ่งภายหลังเพื่อรวมข้อมูลก่อนหน้านี้)
วิกิพีเดียอื่นให้ภาพรวมที่ดีและชี้ไปที่ Agresti และ Couli (1998) และ Ross (2003) เพื่อดูรายละเอียดเกี่ยวกับการใช้ประมาณการนอกเหนือจากการประมาณปกติคะแนนวิลสัน Clopper-Pearson หรือ Agresti-Coull สิ่งเหล่านี้มีความแม่นยำมากขึ้นเมื่อสมมติฐานด้านบนเกี่ยวกับและไม่ตรง
R จัดเตรียมฟังก์ชันbinconf {Hmisc}
และbinom.confint {binom}
สิ่งที่สามารถใช้ในลักษณะดังต่อไปนี้
set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')
Jovanovic, BD และ PS Levy, 1997 ดูกฎของสาม ฉบับสถิติอเมริกัน 51, ฉบับที่ 2, หน้า 137-139
การประมาณค่าปกติของตัวอย่างเบอร์นูลลีนั้นอาศัยขนาดตัวอย่างและสัดส่วนตัวอย่างที่ค่อนข้างไกลจากก้อย การประเมินความน่าจะเป็นสูงสุดนั้นมุ่งเน้นไปที่อัตราต่อรองที่เปลี่ยนรูปซึ่งจะให้ช่วงเวลาที่ไม่สมมาตรและมีประสิทธิภาพสำหรับที่ควรใช้แทน
กำหนดอัตราต่อรองเป็น
ได้รับ 1- CI สำหรับโดย:
และนี่คือการแปลงกลับเป็นช่วงเวลา (ไม่สมมาตร) สำหรับด้วย:
CI นี้มีประโยชน์เพิ่มเติมที่สัดส่วนอยู่ในช่วงระหว่าง 0 หรือ 1 และ CI จะแคบกว่าช่วงเวลาปกติในขณะที่อยู่ในระดับที่ถูกต้องเสมอ คุณสามารถหาได้ง่ายใน R โดยการระบุ:
set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))
2.5 % 97.5 %
0.2795322 0.4670450
ในตัวอย่างขนาดเล็กการประมาณค่าปกติถึง MLE - ในขณะที่ดีกว่าการประมาณแบบปกติกับสัดส่วนตัวอย่าง - อาจไม่น่าเชื่อถือ ไม่เป็นไร สามารถนำไปตามความหนาแน่นทวินามขอบเขตสำหรับสามารถพบได้โดยใช้เปอร์เซ็นต์ที่ 2.5 และ 97.5-th จากการแจกแจงนี้
เป็นไปได้ด้วยมือเปล่าช่วงความเชื่อมั่นทวินามที่แน่นอนสามารถรับได้สำหรับโดยใช้วิธีการคำนวณ
qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47
และถ้าเป็น 0 หรือ 1 แน่นอนตัวประมาณค่ากลางที่ไม่เอนเอียงสามารถใช้เพื่อให้ได้ค่าประมาณช่วงเวลาที่ไม่ใช่เอกพจน์โดยขึ้นอยู่กับฟังก์ชันความน่าจะเป็นแบบค่ามัธยฐานแบบเป็นกลาง คุณสามารถใช้ขอบเขตล่างของเคสทั้งหมด -0 เป็น 0 WLOG ขอบเขตบนคือสัดส่วนใด ๆที่สอดคล้องกับ:
นี่เป็นกิจวัตรการคำนวณด้วยเช่นกัน
set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
0.5*dbinom(0, 100, p) +
pbinom(1, 100, p, lower.tail = F) -
0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)
[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability
วิธีการสองวิธีสุดท้ายถูกนำไปใช้ในepitools
แพ็คเกจใน R