การทดลองซ้ำส่วนใดที่จะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดสอบครั้งแรก


12

มายึดติดกับสถานการณ์ในอุดมคติด้วยการสุ่มตัวอย่างประชากรเกาส์เซียนความแปรปรวนที่เท่าเทียมกันไม่มีการแฮ็ค P เป็นต้น

ขั้นตอนที่ 1 คุณเรียกใช้การทดลองพูดเปรียบเทียบค่าเฉลี่ยตัวอย่างสองค่าและคำนวณช่วงความมั่นใจ 95% สำหรับความแตกต่างระหว่างค่าเฉลี่ยประชากรสองค่า

ขั้นตอนที่ 2 คุณเรียกใช้การทดลองอื่น ๆ อีกมากมาย (หลักพัน) ความแตกต่างระหว่างค่าเฉลี่ยจะแตกต่างจากการทดสอบไปจนถึงการทดสอบเนื่องจากการสุ่มตัวอย่าง

คำถาม: ส่วนต่างของค่าเฉลี่ยจากการรวบรวมการทดลองในขั้นตอนที่ 2 จะอยู่ในช่วงความมั่นใจของขั้นตอนที่ 1

ไม่สามารถตอบได้ ทุกอย่างขึ้นอยู่กับสิ่งที่เกิดขึ้นในขั้นตอนที่ 1 หากการทดสอบขั้นตอนที่ 1 นั้นผิดปกติมากคำตอบของคำถามอาจต่ำมาก

ลองจินตนาการว่าทั้งสองขั้นตอนซ้ำหลายครั้ง (ด้วยขั้นตอนที่ 2 ซ้ำหลายครั้ง) ตอนนี้มันน่าจะเป็นไปได้แล้วฉันคิดว่าจะเกิดความคาดหวังว่าการทดลองซ้ำ ๆ โดยเฉลี่ยจะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดลองครั้งแรก

ดูเหมือนว่าคำตอบสำหรับคำถามเหล่านี้จำเป็นต้องเข้าใจเพื่อประเมินความสามารถในการทำซ้ำของการศึกษาซึ่งเป็นพื้นที่ร้อนแรงในขณะนี้


สำหรับการทดลองดั้งเดิม (ขั้นตอนที่ 1) แต่ละครั้งให้นิยามเป็นเศษส่วนของผลลัพธ์ (ขั้นตอนที่ 2) ที่ตามมาที่สร้างการค้นพบภายในช่วงความมั่นใจของผลลัพธ์ดั้งเดิม คุณต้องการคำนวณการกระจายเชิงประจักษ์ของหรือไม่? x ฉัน xixix
Matthew Gunn

ใช่คุณเข้าใจในสิ่งที่ฉันกำลังขอ
ฮาร์วีย์โมโตลสกี

@MatthewGunn ถามว่าคุณต้องการกระจายการสังเกต "เศษส่วนการจับ" เพื่อการสังเกตการณ์ในอนาคตหรือไม่ โพสต์ถาม"... มันควรจะเป็นไปได้ที่ผมจะคิดว่าจะเกิดขึ้นกับความคาดหวังสำหรับสิ่งที่ส่วนของการทดลองซ้ำโดยเฉลี่ยมีขนาดผลภายในช่วงความเชื่อมั่น 95% ของการทดลองครั้งแรก" นี่ไม่ใช่การแจกจ่าย แต่เป็นค่าที่คาดหวัง (โดยเฉลี่ย)

การวิเคราะห์ของ Whuber นั้นยอดเยี่ยม แต่ถ้าคุณต้องการการอ้างอิงจากนั้นนี่คือบทความที่กล่าวถึงคำถามนี้อย่างละเอียดในรายละเอียดที่ยอดเยี่ยม: คัมมิงและ Maillardet, 2006, Confidence Intervals and Replication: ถัดไปหมายถึงการตก . พวกเขาเรียกมันว่าจับเปอร์เซ็นต์ของช่วงความมั่นใจ
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


12

การวิเคราะห์

เพราะนี่เป็นคำถามเชิงแนวคิดเพื่อความง่ายลองพิจารณาสถานการณ์ที่ช่วงความเชื่อมั่นถูกสร้างขึ้นสำหรับค่าเฉลี่ยโดยใช้ a สุ่มตัวอย่างของขนาดและสุ่มตัวอย่างที่สองใช้ขนาดทั้งหมดมาจากการกระจายแบบปกติเดียวกัน (ถ้าคุณชอบคุณสามารถแทนที่ค่าด้วยค่าจากการแจกแจงของนักเรียนขององศาอิสระการวิเคราะห์ต่อไปนี้จะไม่เปลี่ยนแปลง)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αμx(1)nx(2)m(μ,σ2)Ztn-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

โอกาสที่ค่าเฉลี่ยของตัวอย่างที่สองอยู่ใน CI ที่กำหนดโดยอันดับแรกคือ

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

เนื่องจากค่าเฉลี่ยตัวอย่างแรกเป็นอิสระจากค่าเบี่ยงเบนมาตรฐานตัวอย่างแรก (สิ่งนี้ต้องการค่าปกติ) และตัวอย่างที่สองเป็นอิสระจากตัวอย่างแรกความแตกต่างในตัวอย่างหมายถึงเป็นอิสระจาก{(1)} นอกจากนี้สำหรับช่วงเวลานี้สมมาตร2} ดังนั้นการเขียนสำหรับตัวแปรสุ่มและกำลังสองทั้งความไม่เท่าเทียมกันความน่าจะเป็นในคำถามนั้นเท่ากับx¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

กฎแห่งความคาดหมายบอกว่ามีค่าเฉลี่ยและความแปรปรวนของU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

เนื่องจากเป็นชุดแบบเส้นตรงของตัวแปร Normal จึงมีการกระจายแบบปกติ ดังนั้นเป็นครั้งตัวแปร เรารู้อยู่แล้วว่าเป็นครั้งตัวแปร ดังนั้นคือคูณตัวแปรที่มีการแจกแจง แบบความน่าจะเป็นที่ต้องการได้รับจากการแจกแจงแบบ FUU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

อภิปรายผล

กรณีที่น่าสนใจคือเมื่อตัวอย่างที่สองมีขนาดเท่ากับครั้งแรกดังนั้นและมีเพียงและกำหนดความน่าจะเป็น นี่คือคุณค่าของการเป็นพล็อตกับสำหรับnn/m=1nα(1)αn=2,5,20,50

รูป

กราฟขึ้นไปค่า จำกัด ในแต่ละเป็นเพิ่มขึ้น ขนาดการทดสอบดั้งเดิมถูกทำเครื่องหมายด้วยเส้นสีเทาแนวตั้ง สำหรับค่า largish ของโอกาส จำกัด สำหรับอยู่ที่ประมาณ\%αnα=0.05n=mα=0.0585%

โดยการทำความเข้าใจขีด จำกัด นี้เราจะตรวจสอบรายละเอียดของตัวอย่างขนาดเล็กและเข้าใจจุดสำคัญของเรื่องได้ดียิ่งขึ้น ในฐานะที่เป็นเติบโตขนาดใหญ่กระจายแนวทางการจัดจำหน่าย ในแง่ของการแจกแจงปกติแบบมาตรฐานความน่าจะเป็นนั้นใกล้เคียงn=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

ยกตัวอย่างเช่นกับ ,และ0.083 ดังนั้นค่าการ จำกัด การบรรลุโดยเส้นโค้งที่เป็นเพิ่มขึ้นจะเป็น1-0.166 คุณสามารถเห็นมันใกล้จะถึงแล้วสำหรับ (ที่โอกาสคือ )α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

สำหรับขนาดเล็กความสัมพันธ์ระหว่างและความน่าจะเป็นเสริม - ความเสี่ยงที่ CI ไม่ครอบคลุมค่าเฉลี่ยที่สอง - เกือบสมบูรณ์แบบเป็นกฎหมายพลังงาน αα วิธีการแสดงนี้ก็คือว่าน่าจะเป็นบันทึกที่สมบูรณ์เกือบจะเป็นฟังก์ชั่นเชิงเส้นของ\ความสัมพันธ์ที่ จำกัด อยู่ที่ประมาณlogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

ในคำอื่น ๆ ที่มีขนาดใหญ่สำหรับและทุกที่ใกล้ค่าดั้งเดิมของ ,จะใกล้เคียงกับn=mα0.05(1)

10.166(20α)0.557.

(เรื่องนี้ทำให้ผมนึกถึงมากของการวิเคราะห์ความซ้ำซ้อนของช่วงความเชื่อมั่นผมโพสต์ที่/stats//a/18259/919 . แท้จริงอำนาจวิเศษที่นั่นเป็นอย่างมากเกือบซึ่งกันและกันของอำนาจเวทมนตร์ ที่นี่ณ จุดนี้คุณควรสามารถตีความการวิเคราะห์นั้นอีกครั้งในแง่ของความสามารถในการทำซ้ำของการทดลอง)1.910.557


ผลการทดลอง

ผลลัพธ์เหล่านี้ได้รับการยืนยันด้วยการจำลองที่ตรงไปตรงมา Rรหัสต่อไปนี้จะคืนค่าความถี่ของการครอบคลุมโอกาสตามที่คำนวณด้วยและคะแนน Z เพื่อประเมินว่าพวกเขาต่างกันเท่าใด The-Z คะแนนโดยทั่วไปจะมีน้อยกว่าในขนาดที่ไม่คำนึงถึง (หรือแม้กระทั่งว่าหรือ CI คำนวณ) แสดงให้เห็นความถูกต้องของสูตร(1)(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

คุณบอกว่าการใช้ t แทน z จะไม่สร้างความแตกต่างมากนัก ฉันเชื่อว่าคุณยังไม่ได้ตรวจสอบ ด้วยขนาดตัวอย่างขนาดเล็กค่าวิกฤตสองค่าอาจแตกต่างกันมากและการแจกแจง t เป็นวิธีที่ถูกต้องในการคำนวณ CI ทำไมคุณถึงชอบใช้ z?
Harvey Motulsky

มันเป็นตัวอย่างที่หมดจดและนั้นง่ายกว่า เมื่อคุณใช้เป็นที่น่าสนใจว่าเส้นโค้งในรูปเริ่มต้นสูงและลงมาถึงขีด จำกัด ของพวกเขา โดยเฉพาะอย่างยิ่งโอกาสในการสร้างผลลัพธ์ที่มีนัยสำคัญนั้นสูงกว่ามากสำหรับกลุ่มตัวอย่างขนาดเล็กมากกว่ากลุ่มใหญ่! โปรดทราบว่าไม่มีอะไรให้ตรวจสอบเนื่องจากคุณมีอิสระในการตีความเป็นจุดเปอร์เซ็นต์ของการแจกแจงของนักเรียนที่เหมาะสม (หรือการกระจายอื่น ๆ ที่คุณอาจสนใจตั้งชื่อ) ไม่มีอะไรเปลี่ยนแปลงในการวิเคราะห์ หากคุณต้องการที่จะเห็นผลกระทบโดยเฉพาะอย่างยิ่งยกเลิกการใส่เครื่องหมายบรรทัดในรหัส ZtZαqt
whuber

1
+1 นี่เป็นการวิเคราะห์ที่ยอดเยี่ยม (และคำตอบของคุณมี upvotes น้อยเกินไปสำหรับสิ่งที่มันเป็น) ฉันเพิ่งเจอกระดาษที่พูดถึงคำถามนี้อย่างละเอียดและฉันคิดว่าคุณอาจจะสนใจ: คัมมิง & Maillardet, 2006, ช่วงความเชื่อมั่นและการจำลองแบบ: ความหมายต่อไปจะตกอยู่ที่ไหน . พวกเขาเรียกมันว่าจับเปอร์เซ็นต์ของช่วงความมั่นใจ
อะมีบาพูดว่า Reinstate Monica

@ Amoeba ขอบคุณสำหรับการอ้างอิง โดยเฉพาะอย่างยิ่งฉันขอขอบคุณข้อสรุปทั่วไปอย่างหนึ่งในนั้น: "การจำลองแบบเป็นศูนย์กลางของวิธีการทางวิทยาศาสตร์และนักวิจัยไม่ควรเมินเพราะมันทำให้ความไม่แน่นอนที่เกิดขึ้นจากการศึกษาเพียงครั้งเดียว"
whuber

1
อัปเดต: ขอบคุณที่มีการพูดคุยกันอย่างต่อเนื่องในกลุ่มพี่สาวตอนนี้ฉันเชื่อว่าเหตุผลของฉันในความคิดเห็นข้างต้นไม่ถูกต้อง 95% CIs มี 83% "การจับภาพจำลอง" แต่นี่เป็นคำแถลงเกี่ยวกับการสุ่มตัวอย่างซ้ำและไม่สามารถตีความได้ว่าเป็นการให้ความน่าจะเป็นเงื่อนไขในช่วงความเชื่อมั่นหนึ่งช่วง (อาจจะลบความคิดเห็นทั้งก่อนหน้านี้และที่ดีกว่านี้เพื่อไม่ให้ผู้อ่านสับสนอีก)
อะมีบาพูดว่า Reinstate Monica

4

[แก้ไขเพื่อแก้ไขข้อผิดพลาด WHuber ชี้ให้เห็น]

ฉันเปลี่ยนรหัส R @ Whuber เพื่อใช้การแจกแจง t และครอบคลุมการแปลงเป็นฟังก์ชันขนาดตัวอย่าง ผลลัพธ์อยู่ด้านล่าง ที่ขนาดตัวอย่างสูงผลลัพธ์จะตรงกับ WHuber แน่นอน

ป้อนคำอธิบายรูปภาพที่นี่

และนี่คือรหัส R ที่ดัดแปลงให้รันสองครั้งโดยตั้งค่าอัลฟ่าเป็น 0.01 หรือ 0.05

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

และนี่คือไฟล์GraphPad Prismที่สร้างกราฟ


ฉันเชื่อว่าแปลงของคุณไม่ได้ใช้การกระจายtเนื่องจากข้อผิดพลาด: คุณตั้งค่าTนอกวง! หากคุณต้องการที่จะเห็นเส้นโค้งที่ถูกต้องเพียงแค่พล็อตพวกเขาโดยตรงโดยใช้ผลลัพธ์ทางทฤษฎีในคำตอบของฉันตามที่กำหนดไว้ในตอนท้ายของRรหัสของฉัน(แทนที่จะอาศัยผลการจำลอง):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber อ๊ะ! แน่นอนว่าคุณพูดถูก น่าอาย. ฉันแก้ไขมันแล้ว เมื่อคุณชี้ให้เห็นความครอบคลุมจะสูงขึ้นด้วยขนาดตัวอย่างเล็ก ๆ (ฉันคงจำลองและไม่ได้ลองฟังก์ชั่นทางทฤษฎีของคุณ.)
ฮาร์วีย์ Motulsky

ฉันดีใจที่คุณแก้ไขมันเพราะมันน่าสนใจมากความครอบคลุมสูงสำหรับขนาดตัวอย่างขนาดเล็ก นอกจากนี้เรายังสามารถกลับคำถามของคุณและใช้สูตรเพื่อกำหนดค่าของจะใช้ถ้าเราต้องการให้มั่นใจ (ก่อนที่จะทำการทดลองใด ๆ ) ด้วยความน่าจะเป็น (พูด) นั่นคือค่าเฉลี่ยของ การทดลองที่สองจะอยู่ภายในช่วงความเชื่อมั่นสองกำหนดจากวินาที การทำเช่นนั้นเป็นกิจวัตรประจำวันอาจเป็นวิธีหนึ่งที่น่าสนใจในการจัดการกับคำวิจารณ์ของ NHST Zα/2p=0.951α
whuber

@ เมื่อไรฉันคิดว่าขั้นตอนต่อไปคือดูการกระจายความครอบคลุม จนถึงตอนนี้เรามีการครอบคลุมโดยเฉลี่ย (โดยเฉลี่ยของการทดลองครั้งแรกหลายครั้งโดยเฉลี่ยการทดลองที่สองหลายครั้ง) แต่ขึ้นอยู่กับการทดสอบครั้งแรกในบางกรณีความครอบคลุมโดยเฉลี่ยจะไม่ดี มันจะน่าสนใจที่จะเห็นการกระจาย ฉันพยายามที่จะเรียนรู้อาร์ดีพอที่จะหา
Harvey Motulsky

เกี่ยวกับการแจกแจงให้ดูกระดาษที่ฉันเชื่อมโยงในความคิดเห็นด้านบน
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.