จะคำนวณช่วงความมั่นใจของค่าเฉลี่ยได้อย่างไร


19

ลองนึกภาพว่าคุณทำการทดสอบซ้ำสามครั้ง ในการทดสอบแต่ละครั้งคุณจะรวบรวมการวัดเพิ่มขึ้นสามเท่า triplicates มีแนวโน้มที่จะอยู่ใกล้กันอย่างเป็นธรรมเมื่อเทียบกับความแตกต่างระหว่างสามวิธีการทดลอง การคำนวณค่าเฉลี่ยที่ยิ่งใหญ่นั้นง่ายมาก แต่เราจะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยที่ยิ่งใหญ่ได้อย่างไร

ข้อมูลตัวอย่าง:

การทดลอง 1: 34, 41, 39

การทดลองที่ 2: 45, 51, 52

การทดลอง 3: 29, 31, 35

สมมติว่าค่าการทำซ้ำภายในการทดสอบเป็นไปตามการแจกแจงแบบเกาส์เช่นเดียวกับค่าเฉลี่ยของการทดสอบแต่ละครั้ง SD ของการเปลี่ยนแปลงภายในการทดสอบมีขนาดเล็กกว่า SD ในวิธีการทดลอง สมมติว่าไม่มีการเรียงลำดับของค่าสามค่าในการทดสอบแต่ละครั้ง คำสั่งจากซ้ายไปขวาของค่าทั้งสามในแต่ละแถวนั้นไม่มีข้อ จำกัด

วิธีง่ายๆคือการคำนวณค่าเฉลี่ยของการทดสอบแต่ละครั้งก่อน: 38.0, 49.3 และ 31.7 จากนั้นคำนวณค่าเฉลี่ยและช่วงความมั่นใจ 95% ของค่าสามค่า การใช้วิธีนี้ค่าเฉลี่ยที่ยิ่งใหญ่คือ 39.7 โดยมีช่วงความมั่นใจ 95% ตั้งแต่ 17.4 ถึง 61.9

ปัญหาของวิธีการนี้คือมันไม่สนใจความแตกต่างระหว่าง triplicates ฉันสงสัยว่าจะไม่มีวิธีที่ดีในการอธิบายการเปลี่ยนแปลงนั้นหรือไม่


1
ไม่ใช่คำตอบเพียงแค่การสังเกตอย่างง่าย CI ข้อมูล pooled หมายถึง (ทั้งเก้า OBS) เป็น , CI ขึ้นอยู่กับวิธีการเดียวคือ( 39.7 ± 12.83 ) ไม่แน่ใจว่า CI ของคุณกำลังทำอะไร (พิมพ์ผิด 17 ไม่ใช่ 27 และ 51 ไม่ใช่ 61) ฉันได้2.98สำหรับ std err ของสามวิธีและ4.30เท่ากับ0.975 quantile ของ T dist ด้วย 2 df ฉันคิดว่า CI ที่คุณต้องการจะอยู่ที่ไหนสักแห่งระหว่างสองคนนี้ - เพราะคุณมีการรวมกันบางส่วน อาจคิดในแง่ของสูตรความแปรปรวนV ( Y ) = E [ V ( |(39.7±2.13)(39.7±12.83)2.984.300.975แต่ละ CI ใช้ครึ่งหนึ่งของสูตรV(Y)=E[V(Y|Yg)]+V[E(Y|Yg)]
ความน่าจะเป็นทาง

2
@probabilityislogic: SEM ของสามการทดสอบหมายถึง 5.168 (ไม่ใช่ 2.98 ตามที่คุณเขียน) และช่วงความมั่นใจที่ฉันให้ไว้ในโพสต์ดั้งเดิม (17.4 ถึง 61.9) นั้นถูกต้อง SEM คำนวณจาก SD (8.95) โดยหารด้วยรากที่สองของ n (รากที่สองของ 3) คุณหารด้วย n (3) แทน
Harvey Motulsky

ความผิดพลาดของฉันควรแทนที่ด้วย6.40ในช่วงพักพูล (ความผิดพลาดเดียวกันที่นั่น)2.136.40
ความน่าจะเป็นเชิง

ลิงก์ต่อไปนี้ตอบคำถาม 'สิ่งนี้หรือไม่ talkstats.com/showthread.php/11554-mean-of-means

@TST, ดูเหมือนจะไม่มีอะไร แต่เชื่อมโยงไปยังวิกิพีเดียในPooled แปรปรวน สนใจที่จะทำอย่างละเอียด?
chl

คำตอบ:


6

มีช่วงความเชื่อมั่นที่แน่นอนตามธรรมชาติสำหรับคุณปู่ในแบบจำลองทางเดียวแบบสมดุลแบบสุ่ม ที่จริงแล้วมันง่ายที่จะตรวจสอบว่าการแจกแจงของค่าที่สังเกตได้คือ ˉ yฉันคือ ˉ yฉันiid N ( μ , τ 2 )กับ τ 2 = σ 2 b + σ 2 w

(yijμi)iidN(μi,σw2),j=1,,J,μiiidN(μ,σb2),i=1,,I.
y¯iy¯iiidN(μ,τ2)τ2=σb2+σw2J, and it is well known that the between sum of squares SSb has distribution
SSbJτ2χI12
and is independent of the overall observed mean
y¯N(μ,τ2I)
. Thus
y¯μ1ISSbJ(I1)
has a Student t distribution with I1 degrees of freedom, wherefrom it is easy to get an exact confidence interval about μ.

Note that this confidence interval is nothing but the classical interval for a Gaussian mean by considering only the group means y¯i as the observations. Thus the simple approach you mention:

The simple approach is to first compute the mean of each experiment: 38.0, 49.3, and 31.7, and then compute the mean, and its 95% confidence interval, of those three values. Using this method, the grand mean is 39.7 with the 95% confidence interval ranging from 17.4 to 61.9.

is right. And your intuition about the ignored variation:

The problem with that approach is that it totally ignores the variation among triplicates. I wonder if there isn't a good way to account for that variation.

is wrong. I also mention the correctness of such a simplification in /stats//a/72578/8402

Update 12/04/2014

รายละเอียดบางอย่างในขณะนี้มีการเขียนในบล็อกของฉัน: ลดรูปแบบที่จะได้รับช่วงความเชื่อมั่น


มีความช่วยเหลือในการนำโซลูชันนี้ไปใช้ในไพ ธ อนหรือไม่? stackoverflow.com/questions/45682437/…
blehman

7

นี่เป็นคำถามของการประมาณค่าในโมเดลเอฟเฟกต์แบบผสมเชิงเส้น ปัญหาคือความแปรปรวนของค่าเฉลี่ยยิ่งใหญ่เป็นผลรวมถ่วงน้ำหนักขององค์ประกอบความแปรปรวนสองอย่างซึ่งจะต้องมีการประเมินแยกต่างหาก (ผ่านการวิเคราะห์ความแปรปรวนของข้อมูล) การประเมินมีระดับความอิสระที่แตกต่างกัน ดังนั้นแม้ว่าหนึ่งสามารถพยายามสร้างช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยโดยใช้สูตรตัวอย่างขนาดเล็ก (Student t) ตามปกติ แต่ก็ไม่น่าจะได้รับความคุ้มครองตามที่ระบุเนื่องจากการเบี่ยงเบนจากค่าเฉลี่ยจะไม่เป็นไปตามการกระจายตัวของนักเรียน

บทความล่าสุด (2010) โดย Eva Jarosova การประมาณค่ากับโมเดลเอฟเฟ็กต์การผสมแบบเชิงเส้นกล่าวถึงปัญหานี้ (จนถึงปี 2015 ดูเหมือนว่าจะไม่มีให้บริการบนเว็บอีกต่อไป) ในบริบทของชุดข้อมูล "เล็ก" (ถึงแม้จะใหญ่กว่าชุดข้อมูลนี้ประมาณสามเท่า) เธอใช้การจำลองเพื่อประเมินการคำนวณ CI โดยประมาณสองรายการ - รู้จัก Satterthwaite การประมาณและ "วิธีการของ Kenward-Roger") ข้อสรุปของเธอรวมถึง

Simulation study revealed that quality of estimation of covariance parameters and consequently adjustment of confidence intervals in small samples can be quite poor.... A poor estimation may influence not only the true confidence level of conventional intervals but it can also make the adjustment impossible. It is obvious that even for balanced data three types of intervals [conventional, Satterthwaite, K-R] may differ substantially. When a striking difference between the conventional and the adjusted intervals is observed, standard errors of covariance parameter estimates should be checked. On the other hand, when the differences between [the three] types of intervals are small, the adjustment seems to be unnecessary.

In short, a good approach seems to be

  1. คำนวณ CI แบบเดิมโดยใช้การประมาณของส่วนประกอบความแปรปรวนและทำท่าการแจกแจงแบบ t

  2. คำนวณอย่างน้อยหนึ่งใน CIs ที่ปรับแล้วด้วย

  3. หากการคำนวณเป็น "ปิด" ให้ยอมรับ CI ทั่วไป มิฉะนั้นรายงานว่ามีข้อมูลไม่เพียงพอที่จะสร้าง CI ที่เชื่อถือได้


Using the variance components leads to the same confidence interval I computed in the original post. The ANOVA table has a SS between columns of 480.7 with 2 df, which means the MS is 240.3. The SD is sqrt(MSbetween/n) = sqrt(240.3/3) = 8.95, which leads to the same CI I originally posted (17.4 to 61.9). I found it very hard to follow the Jarasova paper you cited, and am not entirely sure it is relevant here (it seems to be about repeated measures designs). ???
Harvey Motulsky

@Harvey Your description sure sounds like repeated measures to me! I believe the Jarasova paper is spot on.
whuber

1
I am thinking of the common situation in labs where the triplicates are simply three different test tubs (or wells). The order of the three as presented in the table is arbitrary. There is no connection or correlation between replicate #2 in the first experiment with replicate #2 in the second or third experiments. Each experiment just has three measurements. So not really repeated measures. Right?
Harvey Motulsky

whuber, there is an exact Student distribution here. See my answer.
Stéphane Laurent

@whuber the link you supply for Eva Jarasova's article is dead and a Google search did not yield anything. Can you correct the reference?
Placidia

0

You can't have one confidence interval that solves both of your problems. You have to pick one. You can either derive one from a mean square error term of within experiment variance that allows you to say something about how accurately you can estimate the values within experiment or you can do it between and it will be about between experiments. If I just did the former I'd tend to want to plot it around 0 rather than around the grand mean because it doesn't tell you anything about the actual mean value, only about an effect (in this case 0). Or you could just plot both and describe what they do.

You've got a handle on the between one. For the within it's just like calculating the error term in an ANOVA to get an MSE to work with and from there the SE for the CI is just sqrt(MSE/n) (n = 3 in this case).


Actually you can have a credible interval for each mean and for the grand mean. Just use a Bayesian multilevel model. Sometimes this kind of estimate is called partial pooling. The problem is tha small sample, I think.
Manoel Galdino

You could have a confidence interval for each mean and the grand mean too... but they're different things... just like the credible intervals are. I interpreted the question as being about CI's with respect to the within study variance and the between as an aggregate. It all still leaves you with different CI's meaning different things. (I also didn't take the n literally)
John

1
In addition, the way I meant can't isn't really "cannot". You could somehow come up with a single equation that calculates one confidence interval for everything. It just wouldn't mean anything sensible. That's what I meant for can't.
John

A few minutes after I wrote my comment I realized that we weren't supposed to take the n literally. But it was to late to edit it =).
Manoel Galdino

0

I think the CI for grand mean is too wide [17,62] even for the range of original data.

This experiments are VERY common in chemistry. For example, in certification of reference materials you have to pick up some bottles from whole lot in a random way, and you have to carry out replicate analysis on each bottles. How do you calculate the reference value and its uncertainty? There are a lot of way to do it, but the most sofisticated (and correct, I think) is applying meta-analysis or ML (Dersimonian-Laird, Vangel-Rukhin, etc)

What about bootstrap estimates?


1
Simulation (10,000 trials with normally distributed main effects and errors) indicates [21, 58] is a symmetric two-sided 95% CI for the mean.
whuber

whuber: I'd be curious to know how you did those simulations. Bootstrapping from the original data? Or truly simulations? If the latter, what value of mean and SD did you use to simulate data??
Harvey Motulsky
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.