สับสนเกี่ยวกับช่วงความมั่นใจ


10

ฉันสับสนเกี่ยวกับแนวคิดของช่วงความมั่นใจ โดยเฉพาะสมมติว่ามีตัวแปรเกาส์มีรู้จักและฉันสนใจในขอบเขตล่าง\ mu_Lของค่าเฉลี่ยด้วยระดับความเชื่อมั่น95%σ μ L 95 %XN(μ,σ)σμL95%

ฉันจะทำทดลองสำหรับ5ครั้งและสังเกตX1 , X2 , X3 , X4 , X_5X5

ตัวเลือกที่ 1:ผมปฏิบัติแต่ละตัวอย่างแยกกันและผมสามารถคำนวณμL=Xiσzสำหรับแต่ละx_iXiและจากนั้นผมคิดว่ามีวิธีการบางอย่าง (ผมไม่ทราบวิธีการ) ในการคำนวณที่เกิดขึ้นจริงผูกพันลดลงจากนี้ 5 μL 's

ตัวเลือกที่ 2:ในทางกลับกันถ้าผมใช้T=(X1+X2+X3+X4+X5)/5ผมสามารถคำนวณμL=Tσ/5z Z (สมมติว่าTเป็นเรื่องปกติเราสามารถใช้ t-stat ได้เช่นกัน)

มีวิธีอื่นนอกเหนือจากตัวเลือกที่ 2 ในการคำนวณขอบเขตล่างตามตัวอย่าง5หรือไม่? และสำหรับตัวเลือกที่ 1 มีวิธีคำนวณขอบเขตล่างโดยคำนวณจากขอบเขตล่าง 5 ตัวหรือไม่?

คำตอบ:


12

นี่เป็นคำถามที่ดีเพราะมันสำรวจความเป็นไปได้ของขั้นตอนทางเลือกและขอให้เราคิดว่าทำไมและวิธีการหนึ่งอาจเหนือกว่าอีกขั้นตอนหนึ่ง

คำตอบสั้น ๆ คือมีหลายวิธีที่เราอาจกำหนดขั้นตอนเพื่อให้ได้ขีด จำกัด ความเชื่อมั่นต่ำกว่าสำหรับค่าเฉลี่ย แต่บางส่วนของวิธีนี้ดีกว่าและบางแย่กว่า (ในแง่ที่มีความหมายและกำหนดชัดเจน) ตัวเลือกที่ 2 เป็นกระบวนการที่ยอดเยี่ยมเพราะผู้ใช้จะต้องรวบรวมข้อมูลน้อยกว่าครึ่งหนึ่งของคนที่ใช้ตัวเลือกที่ 1 เพื่อให้ได้ผลลัพธ์ที่มีคุณภาพเทียบเท่า โดยทั่วไปข้อมูลมากถึงครึ่งหมายถึงงบประมาณครึ่งหนึ่งและครึ่งเวลาดังนั้นเรากำลังพูดถึงความแตกต่างที่สำคัญและประหยัด นี่เป็นตัวอย่างที่แสดงให้เห็นถึงคุณค่าของทฤษฎีทางสถิติ


แทนที่จะทำทฤษฎีใหม่ซึ่งมีบัญชีตำรายอดเยี่ยมมากมายอยู่เราลองสำรวจขั้นตอนการจำกัดความเชื่อมั่นที่ต่ำกว่า (LCL) สามรายการอย่างรวดเร็วสำหรับตัวแปรปกติอิสระของค่าเบี่ยงเบนมาตรฐานที่ทราบ ฉันเลือกคนที่เป็นธรรมชาติและมีแนวโน้มสามคนที่เสนอโดยคำถาม แต่ละคนจะถูกกำหนดโดยระดับความเชื่อมั่นที่ต้องการ :1 - αn1α

  • ตัวเลือก 1a ที่ "นาที" ขั้นตอน ขีด จำกัด ของความเชื่อมั่นที่ลดลงมีการตั้งค่าเท่ากับ\ ค่าของจำนวนถูกกำหนดเพื่อให้โอกาสที่จะเกินค่าเฉลี่ยที่แท้จริงเป็นเพียง ; นั่นคือ\k นาทีα , n , σเสื้อนาทีtmin=min(X1,X2,,Xn)kα,n,σminσkα,n,σmintminα Pr ( T นาที > μ ) = αμαPr(tmin>μ)=α

  • 1b ตัวเลือกที่ "แม็กซ์" ขั้นตอน ขีด จำกัด ของความเชื่อมั่นที่ลดลงมีการตั้งค่าเท่ากับ\ ค่าของจำนวนถูกกำหนดเพื่อให้โอกาสที่จะเกินค่าเฉลี่ยที่แท้จริงเป็นเพียง ; นั่นคือ\k สูงสุดα , n , σเสื้อสูงสุดtmax=max(X1,X2,,Xn)kα,n,σmaxσkα,n,σmaxtmaxα Pr ( T สูงสุด > μ ) = αμαPr(tmax>μ)=α

  • ตัวเลือกที่ 2 ที่ "หมายถึง" ขั้นตอน ขีดจำกัดความเชื่อมั่นต่ำกว่าถูกตั้งค่าเท่ากับ . ค่าของจำนวนถูกกำหนดไว้เพื่อให้โอกาสที่จะเกินค่าเฉลี่ยที่แท้จริงเป็นเพียง ; นั่นคือ\k เฉลี่ยα , n , σทีเฉลี่ยtmean=mean(X1,X2,,Xn)kα,n,σmeanσkα,n,σmeantmeanα Pr ( T เฉลี่ย > μ ) = αμαPr(tmean>μ)=α

เป็นที่รู้จักกันดีโดยที่ ; เป็นฟังก์ชันความน่าจะเป็นแบบสะสมของการแจกแจงแบบปกติมาตรฐาน นี่คือสูตรที่อ้างถึงในคำถาม การจดชวเลขทางคณิตศาสตร์คือ Φ(Zα)=1-αΦkα,n,σmean=zα/nΦ(zα)=1αΦ

  • kα,n,σmean=Φ1(1α)/n.

สูตรสำหรับนาทีและสูงสุดขั้นตอนเป็นที่รู้จักกันน้อยดี แต่ง่ายต่อการตรวจสอบ:

  • kα,n,σmin=Φ1(1α1/n)n})

  • kα,n,σmax=Φ1((1α)1/n)n})

โดยการจำลองเราจะเห็นว่าสูตรทั้งสามทำงาน Rรหัสต่อไปนี้จะทำการทดสอบn.trialsแยกเวลาและรายงาน LCL ทั้งสามรายการสำหรับการทดลองแต่ละครั้ง:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(รหัสไม่รบกวนการทำงานกับการแจกแจงปกติทั่วไป: เนื่องจากเรามีอิสระที่จะเลือกหน่วยการวัดและศูนย์การวัดขนาดก็พอเพียงที่จะศึกษากรณี ,นั่นคือเหตุผลที่ ไม่มีสูตรสำหรับขึ้นอยู่กับ )σ = 1 k * α , n , σ σμ=0σ=1kα,n,σσ

การทดลอง 10,000 ครั้งจะให้ความแม่นยำที่เพียงพอ มารันการจำลองและคำนวณความถี่ที่แต่ละโพรซีเดอร์ล้มเหลวในการสร้างขีดจำกัดความเชื่อมั่นน้อยกว่าค่าเฉลี่ยจริง:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

ผลลัพธ์คือ

   max    min   mean 
0.0515 0.0527 0.0520

ความถี่เหล่านี้ใกล้เคียงกับค่าที่กำหนดของที่เราสามารถทำให้พอใจทั้งสามขั้นตอนการทำงานตามที่โฆษณาไว้: แต่ละอันจะสร้างความมั่นใจ 95% ที่ระดับความเชื่อมั่นต่ำกว่าสำหรับค่าเฉลี่ยα=.05

(หากคุณกังวลว่าความถี่เหล่านี้แตกต่างกันเล็กน้อยจากคุณสามารถเรียกใช้การทดลองเพิ่มเติมได้ด้วยการทดลองหนึ่งล้านครั้งพวกเขาจะเข้าใกล้กับ : ).05 ( 0.050547 , 0.049877 , 0.050274 ).05.05(0.050547,0.049877,0.050274)

แต่สิ่งหนึ่งที่เราต้องการเกี่ยวกับขั้นตอน LCL ใด ๆ ที่ไม่เพียง แต่มันควรจะเป็นที่ถูกต้องตามสัดส่วนตั้งใจของเวลา แต่มันควรจะมีแนวโน้มที่จะใกล้จะถูกต้อง ยกตัวอย่างเช่นลองจินตนาการถึงนักสถิติ (สมมุติฐาน) ผู้ซึ่งอาศัยความรู้สึกทางศาสนาที่ลึกซึ้งสามารถปรึกษา Delphic oracle (ของ Apollo) แทนที่จะรวบรวมข้อมูลและทำการคำนวณ LCL เมื่อเธอถามพระเจ้าถึงค่า LCL 95% พระเจ้าจะทรงคำนวณค่าเฉลี่ยที่แท้จริงและบอกกับเธอว่า - หลังจากนั้นเขาสมบูรณ์แบบ แต่เนื่องจากพระเจ้าไม่ต้องการแบ่งปันความสามารถของเขาอย่างเต็มที่กับมนุษยชาติ (ซึ่งต้องหลงผิด) 5% ของเวลาที่เขาจะให้ LCL นั่นคือ 100 σX1,X2,,Xn100σสูงเกินไป. ขั้นตอน Delphic นี้ยังเป็น LCL 95% - แต่มันน่ากลัวที่จะใช้ในทางปฏิบัติเนื่องจากความเสี่ยงของมันทำให้เกิดขอบเขตที่น่ากลัวอย่างแท้จริง

เราสามารถประเมินความแม่นยำของกระบวนการ LCL ทั้งสามของเราได้อย่างแม่นยำ วิธีที่ดีคือดูการแจกแจงตัวอย่างของพวกเขา: อย่างเท่าเทียมกันฮิสโตแกรมของค่าจำลองจำนวนมากจะทำเช่นกัน พวกเขาอยู่ที่นี่ แม้ว่าแรกรหัสในการผลิตพวกเขา:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

histograms

พวกเขาจะปรากฏบนแกน x ที่เหมือนกัน (แต่แกนแนวตั้งที่แตกต่างกันเล็กน้อย) สิ่งที่เราสนใจคือ

  1. ส่วนสีแดงไปทางขวาของพื้นที่ --whose แทนความถี่ที่วิธีการที่ล้มเหลวที่จะประมาทหมายถึง - มีทั้งหมดเกี่ยวกับเท่ากับจำนวนเงินที่ต้องการ\(เรายืนยันแล้วว่าเป็นตัวเลข)α = .050α=.05

  2. การแพร่กระจายของผลการจำลอง เห็นได้ชัดว่าฮิสโตแกรมขวาสุดแคบกว่าอีกสอง: มันอธิบายขั้นตอนที่จริงประเมินค่าเฉลี่ย (เท่ากับ ) อย่างเต็มที่ % ของเวลา แต่ถึงแม้มันจะดูถูกดูแคลนเกือบตลอดเวลาของ ค่าเฉลี่ยจริง ฮิสโทแกรมอีกสองอันนั้นมีแนวโน้มที่จะประเมินค่าเฉลี่ยที่แท้จริงต่ำกว่าค่าเฉลี่ยเล็กน้อยประมาณต่ำเกินไป ยิ่งกว่านั้นเมื่อพวกเขาประเมินค่าเฉลี่ยที่แท้จริงพวกเขาประเมินค่าสูงไปกว่าวิธีที่เหมาะสมที่สุด คุณสมบัติเหล่านี้ทำให้พวกมันด้อยกว่ากราฟฮิสโตแกรมขวาสุด95 2 σ 3 σ0952σ3σ

ฮิสโตแกรมขวาสุดอธิบายถึงตัวเลือก 2 ซึ่งเป็นขั้นตอน LCL ทั่วไป

การวัดหนึ่งของสเปรดเหล่านี้คือค่าเบี่ยงเบนมาตรฐานของผลการจำลอง:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

ตัวเลขเหล่านี้บอกเราว่าขั้นตอนสูงสุดและขั้นต่ำมีสเปรดเท่ากัน (ประมาณ ) และค่าเฉลี่ย , โพรซีเดอร์มีเพียงประมาณสองในสามของสเปรด ( ประมาณ ) สิ่งนี้เป็นการยืนยันหลักฐานของดวงตาของเรา0.450.680.45

กำลังสองของส่วนเบี่ยงเบนมาตรฐานคือความแปรปรวนเท่ากับ ,และตามลำดับ ความแปรปรวนสามารถเกี่ยวข้องกับปริมาณข้อมูล : หากนักวิเคราะห์คนหนึ่งแนะนำขั้นตอนสูงสุด (หรือขั้นต่ำ ) จากนั้นเพื่อให้บรรลุการแพร่กระจายแคบ ๆ ที่แสดงตามขั้นตอนปกติลูกค้าของพวกเขาจะต้องได้รับข้อมูลเท่า - มากกว่าสองเท่า กล่าวอีกนัยหนึ่งโดยใช้ตัวเลือกที่ 1 คุณจะต้องจ่ายมากกว่าสองเท่าของข้อมูลของคุณมากกว่าการใช้ตัวเลือกที่ 20.45 0.20 0.45 / 0.210.450.450.200.45/0.21


2
คุณไม่เคยล้มเหลวที่จะทำให้ฉันประหลาดใจ
Momo

+1 @whuber นี่เป็นภาพประกอบที่ดี ในการอธิบายช่วงความมั่นใจ bootstrap Efron พูดถึงความถูกต้องและความถูกต้อง ความแม่นยำคือระดับความเชื่อมั่นที่แท้จริงของช่วงเวลานั้นใกล้เคียงกับค่าที่โฆษณาไว้ 3 ตัวอย่างของคุณถูกต้องทั้งหมด ความถูกต้องหมายถึงดีที่สุด สำหรับช่วงความมั่นใจสองด้านที่จะหมายถึงช่วงความเชื่อมั่นที่ถูกต้องที่มีความกว้างสั้นที่สุด (ช่วงเวลาหรือขอบเขตตามค่าเฉลี่ยในกรณีของคุณ) ตัวอย่างของคุณน่าสนใจเพราะอย่างน้อยสามวิธีการแข่งขันค่อนข้าง
Michael R. Chernick

ตัวเลือก OPs 1 ไม่ใกล้เคียงกับการแข่งขันด้วยเหตุผลที่ฉันให้ไว้ในคำตอบของฉัน
Michael R. Chernick

ฉัน @Michael ยอมรับว่าคุณตีความของตัวเลือกที่ 1 คือไม่สามารถแข่งขันได้ สิ่งที่ฉันพบน่าสนใจ - และสำรวจที่นี่ - คือมีการตีความที่เป็นไปได้มากขึ้นว่าใครจะ "คำนวณขอบเขตล่างที่แท้จริง" จากห้าแยกอีกสองที่ฉันได้ตรวจสอบที่นี่ ฉันอาจจะต้องดูอย่างใกล้ชิดที่ตัวเลือก "ค่ามัธยฐาน" เช่นกัน: มันจะไม่ด้อยกว่าการคำนวณแบบปกติมาก (มีประสิทธิภาพน้อยกว่าประมาณ 40%)
whuber

1

ตัวเลือกแรกไม่คำนึงถึงความแปรปรวนลดลงที่คุณได้รับจากตัวอย่างตัวเลือกแรกให้ขอบเขตความมั่นใจ 95% ที่ต่ำกว่าห้าสำหรับค่าเฉลี่ยโดยอ้างอิงจากตัวอย่างขนาด 1 ในแต่ละกรณี การรวมเข้าด้วยกันโดยการหาค่าเฉลี่ยไม่ได้สร้างขอบเขตที่คุณสามารถตีความได้ว่าเป็นขอบเขตที่ต่ำกว่า 95% ไม่มีใครทำอย่างนั้น ตัวเลือกที่สองคือสิ่งที่ทำ ค่าเฉลี่ยของการสังเกตอิสระทั้งห้านั้นมีความแปรปรวนน้อยกว่าโดยมีค่าเท่ากับ 6 มากกว่าความแปรปรวนสำหรับตัวอย่างเดียว ดังนั้นจึงให้ขอบเขตที่ต่ำกว่าดีกว่าค่าใดค่าหนึ่งในห้าที่คุณคำนวณด้วยวิธีแรก

นอกจากนี้หาก Xสามารถสันนิษฐานได้ว่าเป็น iid ปกติดังนั้น T จะเป็นปกติi

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.