ANOVA จะมีนัยสำคัญหรือไม่เมื่อไม่มีการทดสอบ t-pairwise


29

มันเป็นไปได้สำหรับทางเดียว (กับกลุ่มหรือ "ระดับ") ANOVA เพื่อรายงานความแตกต่างอย่างมีนัยสำคัญเมื่อไม่มีN ( N - 1 ) / 2คู่เสื้อทดสอบไม่?N>2N(N1)/2

ในคำตอบนี้ @whuber เขียนว่า:

เป็นที่ทราบกันดีว่าการทดสอบ ANOVA F ทั่วโลกสามารถตรวจจับความแตกต่างของวิธีการได้แม้ในกรณีที่ไม่มีการทดสอบทีละคู่ [ทีไม่ได้รับการปรับแก้คู่] ของวิธีการใดก็ตาม

เห็นได้ชัดว่ามันเป็นไปได้ แต่ฉันไม่เข้าใจว่า มันเกิดขึ้นเมื่อใดและสัญชาตญาณที่อยู่เบื้องหลังกรณีเช่นนี้จะเป็นเช่นไร? บางทีใครบางคนสามารถให้ตัวอย่างของเล่นง่ายๆของสถานการณ์เช่นนี้?

ข้อสังเกตเพิ่มเติมบางส่วน:

  1. ตรงกันข้ามเป็นไปได้อย่างชัดเจน: ANOVA โดยรวมอาจไม่มีนัยสำคัญในขณะที่บางส่วนของการทดสอบ t-pairwise รายงานความแตกต่างที่สำคัญอย่างผิดพลาด (เช่นนั้นจะเป็นผลบวกปลอม)

  2. คำถามของฉันเกี่ยวกับมาตรฐานไม่ได้ปรับสำหรับการเปรียบเทียบแบบทดสอบหลายรายการ หากใช้การทดสอบที่ปรับแล้ว (เช่นขั้นตอน HSD ของ Tukey) อาจเป็นไปได้ว่าไม่มีการทดสอบใดที่มีนัยสำคัญแม้ว่า ANOVA โดยรวมจะเป็นเช่นนั้น คำถามนี้ครอบคลุมในหลาย ๆ คำถามเช่นฉันจะได้รับ ANOVA โดยรวมที่สำคัญได้อย่างไร แต่ไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างคู่กับกระบวนการของ Tukey และที่สําคัญ ANOVA ปฏิสัมพันธ์ แต่ไม่ใช่อย่างมีนัยสำคัญจากจำนวนรถ

  3. ปรับปรุง แต่เดิมคำถามของฉันอ้างถึงการทดสอบ t ตามเข็มนาฬิกาสองตัวอย่าง อย่างไรก็ตามตามที่ @whuber ชี้ให้เห็นในความคิดเห็นในบริบทของ ANOVA การทดสอบแบบ T มักจะถูกเข้าใจว่าเป็นความขัดแย้งหลังการโพสต์โดยใช้ ANOVA ประมาณความแปรปรวนภายในกลุ่มรวมกันในทุกกลุ่ม (ซึ่งไม่ใช่สิ่งที่เกิดขึ้นในสอง - ตัวอย่างการทดสอบ t) จริง ๆ แล้วคำถามของฉันมีสองเวอร์ชันที่แตกต่างกันและคำตอบของทั้งคู่นั้นกลับกลายเป็นว่าเป็นบวก ดูด้านล่าง


3
คำถามของคุณจะครอบคลุมในหลายกระทู้: ลองค้นหาเว็บไซต์ของเราได้ที่ถดถอยอย่างมีนัยสำคัญ (ANOVA เป็นแอพพลิเคชั่นของการถดถอยกำลังสองน้อยที่สุด) ตัวอย่างเช่นstats.stackexchange.com/questions/14500/ …แสดงตัวอย่างที่ชัดเจนและสัญชาตญาณบางอย่าง โปรดค้นคว้าและแก้ไขคำถามของคุณหากเป็นไปได้เพื่อแยกความแตกต่างจากกระทู้ก่อนหน้า
whuber

ขอบคุณฉันไม่เคยเห็นมาก่อน อย่างไรก็ตามฉันมีเวลายากมากที่จะแปลคำอธิบายเหล่านี้เกี่ยวกับการถดถอยหลายครั้งเป็นภาษาของการเปรียบเทียบ ANOVA นี่เป็นปัญหาของฉันเอง แต่ฉันเดาว่าฉันไม่ได้อยู่คนเดียวดังนั้นคำตอบสำหรับคำถามของฉันก็อาจจะมีประโยชน์สำหรับชุมชน นี่คือความสับสนของฉัน: ใครบางคนยกตัวอย่างของการลดน้ำหนักให้กับขนาดรองเท้าซ้าย / ขวา (สอง IV ที่มีความสัมพันธ์กันอย่างยิ่ง) => F signif, ไม่ใช่ ดีมาก. ตอนนี้ในการวิเคราะห์ความแปรปรวนร่วมกับ 3 กลุ่มมี 2 dummy IVs; พวกมันบ้า ๆ บอ ๆ => ต้านความสัมพันธ์อย่างสมบูรณ์แบบเสมอ ... แล้วอะไรล่ะ?
อะมีบาพูดว่า Reinstate Monica

I'm afraid I don't follow that last remark. First, the issue is not necessarily related to strong correlation in the design matrix. Second, dummies are not "perfectly anticorrelated": if they were, the software would have to drop one of them anyway. You perhaps might be referring to subtler issues in more complex ANOVA models.
whuber

@amoeba: your dummy variables are negatively correlated.
Michael M

3
ฉันเอาข้อยกเว้นของคุณไป 1. เพียงเพราะคุณมีการเปรียบเทียบแบบคู่ที่สำคัญมากและ F ที่ไม่มีนัยสำคัญไม่ได้หมายความว่าผลลัพธ์ที่สำคัญเหล่านั้นเป็นผลบวกปลอม เพื่อที่จะทราบได้ว่ามีบางสิ่งบางอย่างที่เป็นเท็จคุณต้องรู้ว่าไม่มีความแตกต่างในวิธีการที่แท้จริง mu สถิติ F ไม่ใช่สิ่งศักดิ์สิทธิ์ ในความเป็นจริงมันไม่ได้บังคับ มันมีประโยชน์มากที่สุดสำหรับการเลือกรุ่น แต่นอกเหนือจากนั้นมันไม่ค่อยมีข้อมูลว่าเกิดอะไรขึ้นกับข้อมูลของคุณโดยเฉพาะ
rvl

คำตอบ:


18

หมายเหตุ: มีบางอย่างผิดปกติกับตัวอย่างดั้งเดิมของฉัน ฉันถูกจับโดยการโต้เถียงอย่างเงียบงันของ R ตัวอย่างใหม่ของฉันคล้ายกับรุ่นเก่าของฉัน หวังว่าทุกอย่างตอนนี้

นี่คือตัวอย่างที่ผมทำที่มีความแปรปรวนอย่างมีนัยสำคัญที่ระดับ 5% แต่ไม่มีการเปรียบเทียบจากจำนวน 6 มีความสำคัญแม้ในระดับ 5%

นี่คือข้อมูล:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

enter image description here

นี่คือ ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

ต่อไปนี้เป็นตัวอย่าง p-test p-values ​​สองตัวอย่าง (สมมติฐานความแปรปรวนเท่ากัน):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

ด้วยความยุ่งเหยิงที่มากขึ้นกับค่าเฉลี่ยของกลุ่มหรือคะแนนแต่ละจุดความแตกต่างในความสำคัญอาจทำให้โดดเด่นมากขึ้น (ในการที่ฉันสามารถทำให้ค่า p แรกมีขนาดเล็กลงและต่ำสุดของชุดของค่า p หกค่าสำหรับการทดสอบ t สูงขึ้น )

-

แก้ไข: นี่คือตัวอย่างเพิ่มเติมที่ แต่เดิมสร้างขึ้นด้วยเสียงรบกวนเกี่ยวกับแนวโน้มซึ่งแสดงให้เห็นว่าคุณสามารถทำได้ดีกว่านี้หากคุณย้ายจุดไปรอบ ๆ :

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F มีค่า p ต่ำกว่า 3% และไม่มีของใด ๆ ที่มีค่า p ต่ำกว่า 8% (สำหรับตัวอย่าง 3 กลุ่ม - แต่มีค่า p ที่ค่อนข้างใหญ่กว่าใน F - ละเว้นกลุ่มที่สอง)

และนี่คือตัวอย่างที่ง่ายมาก ๆ ถ้ามีการประดิษฐ์มากขึ้นด้วย 3 กลุ่ม:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(ในกรณีนี้ความแปรปรวนที่ใหญ่ที่สุดคือกลุ่มกลาง - แต่เนื่องจากขนาดตัวอย่างใหญ่กว่านั้นข้อผิดพลาดมาตรฐานของค่าเฉลี่ยกลุ่มจึงยังเล็กกว่า)


เปรียบเทียบการทดสอบหลายที

whuber แนะนำให้ฉันพิจารณากรณีการเปรียบเทียบหลายรายการ มันพิสูจน์แล้วว่าน่าสนใจมาก

กรณีสำหรับการเปรียบเทียบหลายรายการ (ทั้งหมดดำเนินการในระดับนัยสำคัญดั้งเดิม - เช่นโดยไม่ต้องปรับอัลฟ่าสำหรับการเปรียบเทียบหลายรายการ) ค่อนข้างยากกว่าที่จะประสบความสำเร็จเนื่องจากการเล่นกับความแปรปรวนที่ใหญ่กว่าและเล็กกว่าหรือน้อยกว่า ในทำนองเดียวกันกับการทดสอบสองตัวอย่างทั่วไป

อย่างไรก็ตามเรายังมีเครื่องมือในการจัดการจำนวนกลุ่มและระดับความสำคัญ หากเราเลือกกลุ่มมากขึ้นและมีระดับความสำคัญน้อยลงอีกครั้งก็จะค่อนข้างตรงไปตรงมาเพื่อระบุกรณีและปัญหา นี่คือหนึ่ง:

ใช้แปดกลุ่มด้วย nผม=2. กำหนดค่าในสี่กลุ่มแรกเป็น (2,2.5) และในสี่กลุ่มสุดท้ายเป็น (3.5,4) และรับ α=0.0025(พูด). จากนั้นเราจะมีค่า F ที่สำคัญ:

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

แต่ค่า p ที่เล็กที่สุดในการเปรียบเทียบแบบคู่ไม่มีความหมายที่ระดับ:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
The two-sample t-test is not the same thing as pairwise tests in the regression. The distinction lies in the estimates of residual variance. Thus your examples are not really examples of the stronger paradox, which is that within one and the same regression analysis the F-test can be significant while none of its pairwise comparisons are significant. I believe this paradox does not necessarily arise from heteroscedasticity, either: it can appear even when all group variances are equal.
whuber

4
More interesting still might be to address when it's possible for the F-test to reject the null but none of the pairwise t-tests to reject it at the same significance level (using the same error variance estimate as the F-test). E.g. for 3 groups with equal sample sizes the union of the 5% rejection region for the pairwise t-tests contains the 5% rejection region for the ANOVAR F-test even when the sample size gets very large.
Scortchi - Reinstate Monica

4
@Scortchi: (+1) to your comment. Years ago, I remember working out that it is indeed impossible in the three-group case unless the level of the test is very small (something below 0.005, if I recall). It comes down to relationships on the ratio of cumulative F-distributions with different numerator degrees of freedom, evaluated at a fixed level and fixed denominator degrees of freedom.
cardinal

4
Amoeba, the confusion arises from the fact that "pairwise t-tests" can mean two things. In the ANOVA context, it would usually be understood to mean post hoc contrasts using the ANOVA estimates. As others have pointed out, this is not the same as conducting the usual t-test on pairs of groups, because the ANOVA version is based on an estimate of the within-group variance derived from all the groups.
whuber

2
I think you've made a good summary. I referred to the paradox as "stronger" in the sense that when all tests are conducted within the framework of a single ANOVA analysis, one would (naively) expect them to be internally consistent. (When you conduct two sets of tests that are not inherently related, it shouldn't be much of a surprise when they give conflicting results: this happens often.) We have to accept that it is logically consistent and statistically valid to conclude that group means vary significantly while not finding differences between any specific pairs of groups.
whuber

4

Summary: I believe that this is possible, but very, very unlikely. The difference will be small, and if it happens, it's because an assumption has been violated (such as homoscedasticity of variance).

Here's some code that seeks out such a possibility. Note that it increments the seed by 1 each time it runs, so that the seed is stored (and the search through seeds is systematic).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Searching for a significant R2 and no non-significant t-tests I have found nothing up to a seed of 18,000. Searching for a lower p-value from R2 than from the t-tests, I get a result at seed = 323, but the difference is very, very small. It's possible that tweaking the parameters (increasing the number of groups?) might help. The reason that the R2 p-value can be smaller is that when the standard error is calculated for the parameters in the regression, all groups are combined, so the standard error of the difference is potentially smaller than in the t-test.

I wondered if violating heteroscedasticity might help (as it were). It does. If I use

y <- (rnorm(600) + x * 0.01) * x * 5

To generate the y, then I find a suitable result at seed = 1889, where the minimum p-value from the t-tests is 0.061 and the p-value associated with R-squared is 0.046.

If I vary the group sizes (which increases the effect of violation of heteroscedasticity), by replacing the x sampling with:

x <- sample(c(0:5), 100, replace=TRUE)

I get a significant result at seed = 531, with the minimum t-test p-value at 0.063 and the p-value for R2 at 0.046.

If I stop correcting for heteroscedasticity in the t-test, by using:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

My conclusion is that this is very unlikely to occur, and the difference is likely to be very small, unless you have violated the homoscedasticity assumption in regression. Try running your analysis with a robust/sandwich/whatever you want to call it correction.


You seem to have an unfinished sentence starting with "If I stop correcting for heteroscedasticity in the t-test". Apart from that, thanks a lot! Please see my update to the question. Also note @whuber's first comment up here; if I understand correctly, he insists that such a situation can easily (?) happen (and calls it "well known"). Maybe there is some misunderstanding here, but what is it?
amoeba says Reinstate Monica

I think @whuber is talking about non-significant parameters in the model, not non-significant t-tests.
Jeremy Miles

No, he's not. If it's well known, I don't know it and I've tried to come up with an example, and can't.
Jeremy Miles

1
I am glad, then, that @Glen_b produced a simple example. The intuition is that the overall test assesses whether there is evidence that the spread in the group means cannot reasonably be explained by residual variance alone. The pairwise tests, involving only two means at a time, have to be considerably more conservative in evaluating the same evidence. Therefore even comparing the two extreme group means may fail to uncover a significant difference when the overall distribution of all means is significant. This sometimes occurs in practice, especially with large numbers of groups.
whuber

3
BTW, the reason for calling this "well known" stems from my recollection of being warned about it in the Systat software manual c. 1989. It was a very instructive manual (most of it written personally by Leland Wilkinson, the developer) and probably still is. The manual is online, but you have to register on the Systat site to be able to download it.
whuber

2

It's entirely possible:

  • One or more pairwise t-test is signfiicant but the overall F-test isn't
  • The overall F-test is significant but none of the pairwise t-test is

The overall F test tests all contrasts simultaneously. As such, it must be less sensitive (less statistical power) to individual contrasts (eg: a pairwise test). The two tests are closely related to each other but they are not reporting exactly the same thing.

As you can see, the textbook recommendation of not doing planned comparisons unless the overall F-test is significant is not always correct. In fact, the recommendation may prevent us from finding significant differences because the overall F test has less power than planned comparisons for testing the specific differences.


I am not sure I follow the logic of your answer. Are you saying that rejection of H0 by an F-test implies that there is at least one non-zero contrast, but this contrast might not correspond to any of the pairwise comparisons? If so, does this mean that if an F-test rejects H0, then at least one of the pairwise tests across all possible contrasts will lead to a rejection too?
amoeba says Reinstate Monica

@amoeba I've edited my answer.
SmallChess
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.