ความสัมพันธ์ระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติสำหรับการทดสอบที


31

เป็นที่ทราบกันดีว่าช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติมีความสัมพันธ์กันอย่างมาก คำถามของฉันมุ่งเน้นไปที่การเปรียบเทียบค่าเฉลี่ยสำหรับสองกลุ่มโดยยึดตามตัวแปรตัวเลข สมมุติว่าสมมุติฐานนั้นถูกทดสอบโดยใช้ t-test ในอีกด้านหนึ่งเราสามารถคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของทั้งสองกลุ่ม มีความสัมพันธ์ระหว่างการทับซ้อนกันของช่วงความเชื่อมั่นและการปฏิเสธสมมติฐานว่างที่หมายถึงว่ามีความเท่าเทียมกันหรือไม่ ตัวอย่างเช่นการทดสอบอาจปฏิเสธสมมติฐานว่างถ้าช่วงความเชื่อมั่นไม่ทับซ้อนกัน

คำตอบ:


31

ใช่มีความสัมพันธ์ง่ายๆระหว่างการเปรียบเทียบช่วงความมั่นใจกับการทดสอบสมมติฐานในการตั้งค่าภาคปฏิบัติที่หลากหลาย อย่างไรก็ตามนอกเหนือจากการตรวจสอบขั้นตอน CI และการทดสอบแบบทีเหมาะสมกับข้อมูลของเราแล้วเราต้องตรวจสอบว่าขนาดตัวอย่างไม่แตกต่างกันมากเกินไปและทั้งสองชุดนั้นมีค่าเบี่ยงเบนมาตรฐานที่คล้ายคลึงกัน เราไม่ควรพยายามหาค่า p ที่แม่นยำสูงจากการเปรียบเทียบช่วงความเชื่อมั่นสองช่วง แต่ควรมีความยินดีที่จะพัฒนาการประมาณที่มีประสิทธิภาพ

ในการพยายามกระทบยอดคำตอบสองคำตอบที่ได้รับแล้ว (โดย @John และ @Brett) จะช่วยให้มีความชัดเจนทางคณิตศาสตร์ สูตรสำหรับช่วงความมั่นใจสองด้านแบบสมมาตรที่เหมาะสมสำหรับการตั้งค่าของคำถามนี้คือ

CI=m±tα(n)sn

โดยที่mคือค่าเฉลี่ยตัวอย่างของการสังเกตอิสระn , sคือค่าเบี่ยงเบนมาตรฐานตัวอย่าง2αคือขนาดการทดสอบที่ต้องการ (อัตราการบวกปลอมสูงสุดสูงสุด) และtα(n)คือ1αเปอร์เซ็นไทล์ของการแจกแจง t ของนักเรียน กับn1องศาอิสระ (การเบี่ยงเบนเล็กน้อยจากสัญกรณ์ธรรมดาช่วยลดความซับซ้อนของการแสดงออกโดยการคลุมเครือความต้องการใด ๆ ที่ต้องเอะอะกับความแตกต่างn vs n1ซึ่งจะไม่สำคัญต่อไป)

ใช้ห้อย1และ2ที่จะแยกสองชุดเป็นอิสระของข้อมูลสำหรับการเปรียบเทียบกับ1สอดคล้องกับที่มีขนาดใหญ่ของทั้งสองวิธีการที่ไม่ใช่ -overlap ของช่วงความเชื่อมั่นจะแสดงโดยความไม่เท่าเทียมกัน (ไม่ จำกัด ความเชื่อมั่นที่ลดลง 1) > (ไม่ จำกัด เชื่อมั่นบน 2 ); ได้แก่ ,

m1tα(n1)s1n1>m2+tα(n2)s2n2.

This can be made to look like the t-statistic of the corresponding hypothesis test (to compare the two means) with simple algebraic manipulations, yielding

m1m2s12/n1+s22/n2>s1n2tα(n1)+s2n1tα(n2)n1s22+n2s12.

ด้านซ้ายมือเป็นสถิติที่ใช้ในการทดสอบสมมติฐาน ก็มักจะถูกเปรียบเทียบกับเปอร์เซ็นต์ของการแจกแจงทีกับn1+n2องศาอิสระ: นั่นคือการtα(n1+n2) ) ด้านขวาเป็นค่าเฉลี่ยถ่วงน้ำหนักของเปอร์เซนต์การแจกแจงดั้งเดิม t

การวิเคราะห์ในตอนนี้แสดงให้เห็นถึงการตอบกลับโดย @Brett: ดูเหมือนจะไม่มีความสัมพันธ์แบบง่าย ๆ อย่างไรก็ตามเรามาสำรวจเพิ่มเติม ฉันได้รับแรงบันดาลใจในการทำเช่นนั้นเพราะโดยสังหรณ์ใจช่วงเวลาที่ไม่ทับซ้อนกันของความเชื่อมั่นควรจะพูดอะไรบางอย่าง!

First, notice that this form of the hypothesis test is valid only when we expect s1 and s2 to be at least approximately equal. (Otherwise we face the notorious Behrens-Fisher problem and its complexities.) Upon checking the approximate equality of the si, we could then create an approximate simplification in the form

m1m2s1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

Here, ss1s2. Realistically, we should not expect this informal comparison of confidence limits to have the same size as α. Our question then is whether there exists an α such that the right hand side is (at least approximately) equal to the correct t statistic. Namely, for what α is it the case that

tα(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

It turns out that for equal sample sizes, α and α are connected (to pretty high accuracy) by a power law. For instance, here is a log-log plot of the two for the cases n1=n2=2 (lowest blue line), n1=n2=5 (middle red line), n1=n2= (highest gold line). The middle green dashed line is an approximation described below. The straightness of these curves belies a power law. It varies with n=n1=n2, but not much.

Plot 1

The answer does depend on the set {n1,n2}, but it is natural to wonder how much it really varies with changes in the sample sizes. In particular, we could hope that for moderate to large sample sizes (maybe n110,n210 or thereabouts) the sample size makes little difference. In this case, we could develop a quantitative way to relate α to α.

This approach turns out to work provided the sample sizes are not too different from each other. In the spirit of simplicity, I will report an omnibus formula for computing the test size α corresponding to the confidence interval size α. It is

αeα1.91;

that is,

αexp(1+1.91log(α)).

This formula works reasonably well in these common situations:

  • Both sample sizes are close to each other, n1n2, and α is not too extreme (α>.001 or so).

  • One sample size is within about three times the other and the smallest isn't too small (roughly, greater than 10) and again α is not too extreme.

  • One sample size is within three times the other and α>.02 or so.

The relative error (correct value divided by the approximation) in the first situation is plotted here, with the lower (blue) line showing the case n1=n2=2, the middle (red) line the case n1=n2=5, and the upper (gold) line the case n1=n2=. Interpolating between the latter two, we see that the approximation is excellent for a wide range of practical values of α when sample sizes are moderate (around 5-50) and otherwise is reasonably good.

Plot 2

This is more than good enough for eyeballing a bunch of confidence intervals.

To summarize, the failure of two 2α-size confidence intervals of means to overlap is significant evidence of a difference in means at a level equal to 2eα1.91, provided the two samples have approximately equal standard deviations and are approximately the same size.

I'll end with a tabulation of the approximation for common values of 2α.

2α 2α
0.1 0.02

0.05 0.005

0.01 0.0002

0.005 0.00006

For example, when a pair of two-sided 95% CIs (2α=.05) for samples of approximately equal sizes do not overlap, we should take the means to be significantly different, p<.005. The correct p-value (for equal sample sizes n) actually lies between .0037 (n=2) and .0056 (n=).

This result justifies (and I hope improves upon) the reply by @John. Thus, although the previous replies appear to be in conflict, both are (in their own ways) correct.


7

No, not a simple one at least.

There is, however, an exact correspondence between the t-test of difference between two means and the confidence interval for the difference between the two means.

If the confidence interval for the difference between two means contains zero, a t-test for that difference would fail to reject null at the same level of confidence. Likewise if the confidence interval does not contain 0, the t-test would reject the null.

This is not the same as overlap between confidence intervals for each of the two means.


The reply by @John, which although at present is not quite right in the details, correctly points out that yes, you can relate overlaps of CIs to test p-values. The relationship is not any more complex than the t-test itself. This has the appearance of contradicting your primary conclusion as stated in the first line. How would you resolve this difference?
whuber

I don't think they are contradictory. I can add some caveats. But, in the general sense, without additional assumptions and knowledge about parameters outside of the presentation of the interval (the variance, the sample size) the response stands as is. No, not a simple one at least.
Brett

5

Under typical assumptions of equal variance, yes, there is a relationship. If the bars overlap by less than the length of one bar * sqrt(2) then a t-test would find them to be significantly different at alpha = 0.05. If the ends of the bars just barely touch then a difference would be found at 0.01. If the confidence intervals for the groups are not equal one typically takes the average and applies the same rule.

Alternatively, if the width of a confidence interval around one of the means is w then the least significant difference between two values is w * sqrt(2). This is simple when you think of the denominator in the independent groups t-test, sqrt(2*MSE/n), and the factor for the CI which, sqrt(MSE/n).

(95% CIs assumed)

There's a simple paper on making inferences from confidence intervals around independent means here. It will answer this question and many other related ones you may have.

Cumming, G., & Finch, S. (2005, March). Inference by eye: confidence intervals, and how to read pictures of data. American Psychologist, 60(2), 170-180.


2
I believe you need also to assume the two groups have the same sizes.
whuber

roughly, yes...
John
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.