จะรับช่วงความมั่นใจสำหรับเปอร์เซ็นไทล์ได้อย่างไร


15

ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?

คำตอบ:


21

คำถามนี้ซึ่งครอบคลุมสถานการณ์ทั่วไปสมควรได้รับคำตอบที่ไม่ธรรมดา โชคดีที่มีหนึ่ง

สมมติว่าX1,...,Xnเป็นค่าที่เป็นอิสระจากการกระจายที่ไม่รู้จักFมีQTH quantile ฉันจะเขียนF-1(Q) ) ซึ่งหมายความว่าแต่ละXผมมีโอกาส (อย่างน้อย) กQของการเป็นน้อยกว่าหรือเท่ากับF-1(Q) ) ดังนั้นจำนวนของXผมน้อยกว่าหรือเท่ากับF-1(Q)มี Binomial (n,Q)การกระจาย

แรงบันดาลใจจากการพิจารณาที่เรียบง่ายนี้ Gerald Hahn และ William Meeker ในช่วงเวลาทางสถิติของคู่มือ(Wiley 1991)

ได้รับช่วงความเชื่อมั่นแบบอนุรักษ์นิยม100(1-α)%สำหรับF-1(Q)ได้รับ ... เป็น[X(ล.),X(ยู)]

โดยที่เป็นสถิติการสั่งซื้อของกลุ่มตัวอย่าง พวกเขาพูดต่อไปX(1)X(2)X(n)

หนึ่งสามารถเลือกเลขแฟ่บ (หรือเกือบแฟ่) รอบQ ( n + 1 )และในขณะที่ใกล้กันเป็นเรื่องที่เป็นไปได้กับความต้องการที่B ( U - 1 ; n , Q ) - B ( L - 1 ; n , Q ) 1 - α0ล.ยูnQ(n+1)

(1)B(ยู-1;n,Q)-B(ล.-1;n,Q)1-α.

การแสดงออกทางด้านซ้ายเป็นโอกาสที่ทวินามตัวแปรมีหนึ่งของค่า{ L , L + 1 , ... , U - 1 } เห็นได้ชัดว่านี่คือโอกาสที่จำนวนของค่าข้อมูลX ฉันตกอยู่ในที่ต่ำกว่า100 Q %ของการกระจายไม่เป็นขนาดเล็กเกินไป (น้อยกว่าลิตร ) หรือใหญ่เกินไป ( Uหรือสูงกว่า)(n,Q){ล.,ล.+1,...,ยู-1}Xผม100Q%ล.ยู

Hahn และ Meeker ตามด้วยคำพูดที่เป็นประโยชน์ซึ่งฉันจะพูด

ช่วงก่อนหน้านี้เป็นอนุรักษ์นิยมเพราะระดับความเชื่อมั่นที่เกิดขึ้นจริงที่ได้รับจากด้านซ้ายมือของสมการเป็นใหญ่กว่าที่ระบุค่า1 - α ...(1)1-α

บางครั้งมันเป็นไปไม่ได้ที่จะสร้างช่วงเวลาทางสถิติที่ไม่มีการแจกแจงซึ่งอย่างน้อยก็มีระดับความเชื่อมั่นที่ต้องการ ปัญหานี้รุนแรงโดยเฉพาะเมื่อประเมินเปอร์เซ็นไทล์ในหางของการแจกแจงจากตัวอย่างเล็ก ๆ ... ในบางกรณีนักวิเคราะห์สามารถรับมือกับปัญหานี้ได้โดยเลือกและu ไม่สมมาตร ทางเลือกอื่นอาจใช้ระดับความเชื่อมั่นที่ลดลงล.ยู


มาทำงานเป็นตัวอย่าง (จัดทำโดย Hahn & Meeker) พวกมันจัดหาชุดคำสั่ง "การวัดสารประกอบจากกระบวนการทางเคมี" และขอช่วงความเชื่อมั่น100 ( 1 - α ) = 95 %สำหรับq = 0.90เปอร์ไทล์ พวกเขาอ้างว่าl = 85และu = 97จะได้ผลn=100100(1-α)=95%Q=0.90ล.=85ยู=97

รูปที่แสดงการแจกแจงแบบทวินาม (100, 0.90)

ความน่าจะเป็นรวมของช่วงเวลานี้ตามที่แสดงโดยแถบสีน้ำเงินในรูปคือ : ใกล้เคียงที่สุดที่จะได้รับ95 %แต่ก็ยังอยู่เหนือมันโดยเลือกสอง cutoffs และกำจัดโอกาสทั้งหมดในหางซ้าย และหางขวาที่อยู่เหนือการตัดทอนเหล่านั้น95.3%95%

นี่คือข้อมูลที่แสดงตามลำดับโดยปล่อยให้ค่าจากตรงกลาง:81

1.491.662.05...24.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

ที่ใหญ่ที่สุดคือ24.33และ97 ปีบริบูรณ์ที่ใหญ่ที่สุดคือ33.24 ช่วงเวลาจึงเป็น[ 24.33 , 33.24 ]85TH24.3397TH33.24[24.33,33.24]

ลองตีความอีกครั้ง ขั้นตอนนี้ควรจะมีอย่างน้อยโอกาสที่จะครอบคลุม90 THเปอร์เซ็นต์ หากเปอร์เซ็นต์ที่จริงเกิน33.24นั่นหมายความว่าเราจะได้สังเกตเห็น97หรือมากกว่าจาก100ค่าในตัวอย่างของเราที่มีดังต่อไปนี้90 THเปอร์เซ็นต์ มันมากเกินไป หากเปอร์เซ็นต์ที่น้อยกว่า24.33นั่นหมายความว่าเราจะได้สังเกตเห็น84หรือน้อยกว่าค่าในตัวอย่างของเราที่มีดังต่อไปนี้90 THเปอร์เซ็นต์ นั่นน้อยเกินไป95%90TH33.249710090TH24.338490TH ในทั้งสองกรณี - ตรงตามที่ระบุโดยแท่งสีแดงในภาพ - มันจะเป็นหลักฐานกับเปอร์เซ็นต์นอนอยู่ภายในช่วงเวลานี้90TH


วิธีหนึ่งในการค้นหาตัวเลือกที่ดีของและuคือการค้นหาตามความต้องการของคุณ นี่คือวิธีการที่เริ่มต้นด้วยช่วงเวลาโดยประมาณแบบสมมาตรจากนั้นค้นหาโดยการเปลี่ยนแปลงทั้งlและu เป็นมากถึง2เพื่อหาช่วงเวลาที่มีความครอบคลุมที่ดี (ถ้าเป็นไปได้) มันเป็นตัวอย่างที่มีรหัส มันถูกตั้งค่าให้ตรวจสอบความครอบคลุมในตัวอย่างก่อนหน้าสำหรับการแจกแจงแบบปกติ เอาท์พุทมันคือล.ยูล.ยู2R

ค่าเฉลี่ยการจำลองครอบคลุม 0.9503; ความคุ้มครองที่คาดหวังคือ 0.9523

ข้อตกลงระหว่างการจำลองและการคาดการณ์นั้นยอดเยี่ยม

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

รากศัพท์

τQτXFX-1(τ)Q^τ=F^-1(τ)

n(Q^τ-Qτ)

ก่อนอื่นเราต้องกระจายซีมิกโทติคของซีเอ็มทีเชิงประจักษ์

F^(x)=1nΣ1{Xผม<x}1{Xผม<x}P(Xผม<x)=F(x)F(x)(1-F(x))

n(F^(x)-F(x))ยังไม่มีข้อความ(0,F(x)(1-F(x)))(1)

ตอนนี้เนื่องจากการผกผันเป็นฟังก์ชันต่อเนื่องเราสามารถใช้วิธีการเดลต้า

n(Y¯-μY)ยังไม่มีข้อความ(0,σ2)ก.()n(ก.(Y¯)-ก.(μY))ยังไม่มีข้อความ(0,σ2(ก.'(μY))2)

x=Qτก.()=F-1()

n(F-1(F^(Qτ))-F-1(F(Qτ)))=n(Q^τ-Qτ)

F-1(F^(Qτ))F^-1(F^(Qτ))=Q^τ

ตอนนี้ใช้วิธีการเดลต้าที่กล่าวถึงข้างต้น

ddxF-1(x)=1(F-1(x))

n(Q^τ-Qτ)ยังไม่มีข้อความ(0,F(Qτ)(1-F(Qτ))(F-1(F(Qτ)))2)=ยังไม่มีข้อความ(0,F(Qτ)(1-F(Qτ))(Qτ)2)

จากนั้นในการสร้างช่วงความมั่นใจเราจำเป็นต้องคำนวณข้อผิดพลาดมาตรฐานโดยการเสียบตัวอย่างคู่ของแต่ละคำในความแปรปรวนด้านบน:

ผลลัพธ์

sอี(Q^τ)=F^(Q^τ)(1-F^(Q^τ))n^(Q^τ)2= τ(1-τ)n^(Q^τ)2

ผม0.95(Q^τ)=Q^τ±1.96sอี(Q^τ)

X


1
คุณสามารถขยายคำตอบของคุณด้วยเนื้อหาจากบทความที่เชื่อมโยงได้หรือไม่ ลิงก์อาจใช้งานไม่ได้ตลอดไปและจากนั้นคำตอบนี้จะมีประโยชน์น้อยลง
Andy

1
อะไรคือข้อดีของผลลัพธ์แบบ asymptotic นี้จากการประเมินความหนาแน่นเมื่อเปรียบเทียบกับการแจกแจงแบบไม่แจกแจงบนการแจกแจงแบบทวินาม
Michael M

สิ่งนี้ยังคงเป็นไปตามบทความที่คุณเชื่อมโยงตั้งแต่แรกหรือไม่
Nick Stauner

ใช่ฉันควรเพิ่มลิงค์นั้นกลับเข้ามาใหม่ไหม? ฉันคิดว่านี่เป็นผลลัพธ์ที่รู้จักกันดี ฉันเคยเห็นมันในชั้นเรียนมาก่อนและไม่ยากที่จะหาโดย google ในกรณีเช่นนี้ควรเชื่อมโยงหรือพิมพ์หรือดีกว่าหรือไม่?
bmciv

ฉันจะบอกว่าทั้งสองและคุณควรแก้ไขมันกลับมาในกรณีนี้จะได้รับการอ้าง / ได้มาจากมันทั้งหมดเพื่อประโยชน์ที่เหมาะสม มิฉะนั้นอาจไม่สำคัญว่าคุณจะแก้ไขหรือไม่ แต่โดยทั่วไปแล้วนโยบายการแลกเปลี่ยนแบบสแต็กคือกีดกันคำตอบสำหรับลิงก์อย่างเดียวเพื่อหลีกเลี่ยงการเน่าลิงก์และเป็นหลักการ ฉันไม่แน่ใจว่าสถานการณ์เป็นอย่างไรมากกว่า "ความชันลื่น" ในจินตนาการ
Nick Stauner
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.