ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?
ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?
คำตอบ:
คำถามนี้ซึ่งครอบคลุมสถานการณ์ทั่วไปสมควรได้รับคำตอบที่ไม่ธรรมดา โชคดีที่มีหนึ่ง
สมมติว่าเป็นค่าที่เป็นอิสระจากการกระจายที่ไม่รู้จักมี quantile ฉันจะเขียน ) ซึ่งหมายความว่าแต่ละมีโอกาส (อย่างน้อย) กของการเป็นน้อยกว่าหรือเท่ากับ ) ดังนั้นจำนวนของน้อยกว่าหรือเท่ากับมี Binomial การกระจาย
แรงบันดาลใจจากการพิจารณาที่เรียบง่ายนี้ Gerald Hahn และ William Meeker ในช่วงเวลาทางสถิติของคู่มือ(Wiley 1991)
ได้รับช่วงความเชื่อมั่นแบบอนุรักษ์นิยมสำหรับได้รับ ... เป็น
โดยที่เป็นสถิติการสั่งซื้อของกลุ่มตัวอย่าง พวกเขาพูดต่อไป
หนึ่งสามารถเลือกเลขแฟ่บ (หรือเกือบแฟ่) รอบQ ( n + 1 )และในขณะที่ใกล้กันเป็นเรื่องที่เป็นไปได้กับความต้องการที่B ( U - 1 ; n , Q ) - B ( L - 1 ; n , Q ) ≥ 1 - α
การแสดงออกทางด้านซ้ายเป็นโอกาสที่ทวินามตัวแปรมีหนึ่งของค่า{ L , L + 1 , ... , U - 1 } เห็นได้ชัดว่านี่คือโอกาสที่จำนวนของค่าข้อมูลX ฉันตกอยู่ในที่ต่ำกว่า100 Q %ของการกระจายไม่เป็นขนาดเล็กเกินไป (น้อยกว่าลิตร ) หรือใหญ่เกินไป ( Uหรือสูงกว่า)
Hahn และ Meeker ตามด้วยคำพูดที่เป็นประโยชน์ซึ่งฉันจะพูด
ช่วงก่อนหน้านี้เป็นอนุรักษ์นิยมเพราะระดับความเชื่อมั่นที่เกิดขึ้นจริงที่ได้รับจากด้านซ้ายมือของสมการเป็นใหญ่กว่าที่ระบุค่า1 - α ...
บางครั้งมันเป็นไปไม่ได้ที่จะสร้างช่วงเวลาทางสถิติที่ไม่มีการแจกแจงซึ่งอย่างน้อยก็มีระดับความเชื่อมั่นที่ต้องการ ปัญหานี้รุนแรงโดยเฉพาะเมื่อประเมินเปอร์เซ็นไทล์ในหางของการแจกแจงจากตัวอย่างเล็ก ๆ ... ในบางกรณีนักวิเคราะห์สามารถรับมือกับปัญหานี้ได้โดยเลือกและu ไม่สมมาตร ทางเลือกอื่นอาจใช้ระดับความเชื่อมั่นที่ลดลง
มาทำงานเป็นตัวอย่าง (จัดทำโดย Hahn & Meeker) พวกมันจัดหาชุดคำสั่ง "การวัดสารประกอบจากกระบวนการทางเคมี" และขอช่วงความเชื่อมั่น100 ( 1 - α ) = 95 %สำหรับq = 0.90เปอร์ไทล์ พวกเขาอ้างว่าl = 85และu = 97จะได้ผล
ความน่าจะเป็นรวมของช่วงเวลานี้ตามที่แสดงโดยแถบสีน้ำเงินในรูปคือ : ใกล้เคียงที่สุดที่จะได้รับ95 %แต่ก็ยังอยู่เหนือมันโดยเลือกสอง cutoffs และกำจัดโอกาสทั้งหมดในหางซ้าย และหางขวาที่อยู่เหนือการตัดทอนเหล่านั้น
นี่คือข้อมูลที่แสดงตามลำดับโดยปล่อยให้ค่าจากตรงกลาง:
ที่ใหญ่ที่สุดคือ24.33และ97 ปีบริบูรณ์ที่ใหญ่ที่สุดคือ33.24 ช่วงเวลาจึงเป็น[ 24.33 , 33.24 ]
ลองตีความอีกครั้ง ขั้นตอนนี้ควรจะมีอย่างน้อยโอกาสที่จะครอบคลุม90 THเปอร์เซ็นต์ หากเปอร์เซ็นต์ที่จริงเกิน33.24นั่นหมายความว่าเราจะได้สังเกตเห็น97หรือมากกว่าจาก100ค่าในตัวอย่างของเราที่มีดังต่อไปนี้90 THเปอร์เซ็นต์ มันมากเกินไป หากเปอร์เซ็นต์ที่น้อยกว่า24.33นั่นหมายความว่าเราจะได้สังเกตเห็น84หรือน้อยกว่าค่าในตัวอย่างของเราที่มีดังต่อไปนี้90 THเปอร์เซ็นต์ นั่นน้อยเกินไป ในทั้งสองกรณี - ตรงตามที่ระบุโดยแท่งสีแดงในภาพ - มันจะเป็นหลักฐานกับเปอร์เซ็นต์นอนอยู่ภายในช่วงเวลานี้
วิธีหนึ่งในการค้นหาตัวเลือกที่ดีของและuคือการค้นหาตามความต้องการของคุณ นี่คือวิธีการที่เริ่มต้นด้วยช่วงเวลาโดยประมาณแบบสมมาตรจากนั้นค้นหาโดยการเปลี่ยนแปลงทั้งlและu เป็นมากถึง2เพื่อหาช่วงเวลาที่มีความครอบคลุมที่ดี (ถ้าเป็นไปได้) มันเป็นตัวอย่างที่มีรหัส มันถูกตั้งค่าให้ตรวจสอบความครอบคลุมในตัวอย่างก่อนหน้าสำหรับการแจกแจงแบบปกติ เอาท์พุทมันคือR
ค่าเฉลี่ยการจำลองครอบคลุม 0.9503; ความคุ้มครองที่คาดหวังคือ 0.9523
ข้อตกลงระหว่างการจำลองและการคาดการณ์นั้นยอดเยี่ยม
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
รากศัพท์
ก่อนอื่นเราต้องกระจายซีมิกโทติคของซีเอ็มทีเชิงประจักษ์
ตอนนี้เนื่องจากการผกผันเป็นฟังก์ชันต่อเนื่องเราสามารถใช้วิธีการเดลต้า
ตอนนี้ใช้วิธีการเดลต้าที่กล่าวถึงข้างต้น
จากนั้นในการสร้างช่วงความมั่นใจเราจำเป็นต้องคำนวณข้อผิดพลาดมาตรฐานโดยการเสียบตัวอย่างคู่ของแต่ละคำในความแปรปรวนด้านบน:
ผลลัพธ์