ในทางปฏิบัติผู้คนจัดการกับ ANOVA อย่างไรเมื่อข้อมูลไม่เป็นไปตามสมมติฐาน


19

นี่ไม่ใช่คำถามเกี่ยวกับสถิติอย่างเด็ดขาด - ฉันสามารถอ่านหนังสือเรียนทั้งหมดเกี่ยวกับสมมติฐานของ ANOVA ได้ - ฉันพยายามคิดว่านักวิเคราะห์การทำงานจริงจัดการกับข้อมูลที่ไม่ตรงตามสมมติฐาน ฉันได้ผ่านคำถามมากมายในเว็บไซต์นี้เพื่อค้นหาคำตอบและฉันค้นหาโพสต์เกี่ยวกับเวลาที่จะไม่ใช้ ANOVA (ในบริบททางคณิตศาสตร์นามธรรมในอุดมคติ) หรือวิธีการทำสิ่งที่ฉันอธิบายด้านล่างใน R. พยายามคิดให้ดีว่าการตัดสินใจของผู้คนเป็นอย่างไรและทำไม

ฉันกำลังทำการวิเคราะห์ข้อมูลที่จัดกลุ่มจากต้นไม้ (ต้นไม้จริงไม่ใช่ต้นไม้ทางสถิติ) ในสี่กลุ่ม ฉันได้รับข้อมูลเกี่ยวกับคุณลักษณะ 35 รายการสำหรับต้นไม้แต่ละต้นและฉันจะผ่านแต่ละแอตทริบิวต์เพื่อตรวจสอบว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญในคุณลักษณะนั้นหรือไม่ อย่างไรก็ตามในสองกรณีสมมติฐาน ANOVA นั้นถูกละเมิดเล็กน้อยเนื่องจากความแปรปรวนไม่เท่ากัน (ตามการทดสอบของ Levene โดยใช้ alpha = .05)

ตามที่ฉันเห็นตัวเลือกของฉันคือ: 1. พลังแปลงข้อมูลและดูว่ามันเปลี่ยน Levene p-val หรือไม่ 2. ใช้การทดสอบแบบไม่อิงพารามิเตอร์เช่น Wilcoxon (ถ้าเป็นเช่นนั้นแบบไหน?) 3. การแก้ไขผลลัพธ์ ANOVA บางอย่างเช่น Bonferroni (ฉันไม่แน่ใจว่ามีอะไรเช่นนี้หรือไม่) ฉันได้ลองสองตัวเลือกแรกและได้ผลลัพธ์ที่แตกต่างกันเล็กน้อย - ในบางกรณีวิธีการหนึ่งมีความสำคัญและอีกวิธีหนึ่งไม่ ฉันกลัวที่จะตกอยู่ในกับดักจับปลา p-value และฉันกำลังมองหาคำแนะนำที่จะช่วยให้ฉันพิสูจน์ว่าวิธีการใช้งานแบบใด

ฉันได้อ่านบางสิ่งที่ชี้ให้เห็นว่า heteroscedasticity ไม่ใช่ปัญหาใหญ่สำหรับ ANOVA เว้นแต่ว่าค่าเฉลี่ยและความแปรปรวนจะมีความสัมพันธ์กัน (เช่นพวกเขาทั้งคู่เพิ่มขึ้นด้วยกัน) ดังนั้นบางทีฉันอาจเพิกเฉยต่อผลลัพธ์ของ Levene ยกเว้นว่าฉันเห็น รูปแบบเช่นนั้น? ถ้าเป็นเช่นนั้นจะมีการทดสอบนี้หรือไม่?

ในที่สุดฉันควรเพิ่มว่าฉันกำลังทำการวิเคราะห์นี้เพื่อตีพิมพ์ในวารสารที่มีการตรวจสอบโดยเพื่อนดังนั้นวิธีการใดก็ตามที่ฉันใช้จะต้องผ่านการรวมกลุ่มกับผู้ตรวจสอบ ดังนั้นหากทุกคนสามารถให้ลิงก์ไปยังตัวอย่างที่คล้ายคลึงกันที่เผยแพร่แล้วซึ่งน่าอัศจรรย์


3
ไม่ว่าคุณจะใช้หรือไม่Rก็อาจเป็นประโยชน์ต่อคุณในการอ่านคำตอบของฉันที่นี่: ทางเลือก ANOVA ทางเดียวสำหรับข้อมูลที่แตกต่างกันซึ่งอธิบายถึงปัญหาเหล่านี้
gung - Reinstate Monica

คำตอบ:


18

ฉันกำลังพยายามหาว่านักวิเคราะห์การทำงานจริงจัดการกับข้อมูลที่ไม่เป็นไปตามสมมติฐาน

มันขึ้นอยู่กับความต้องการของฉันซึ่งสมมติฐานถูกละเมิดในทางใดวิธีการที่ไม่ดีเท่าไหร่ที่มีผลต่อการอนุมานและบางครั้งในขนาดของกลุ่มตัวอย่าง

ฉันกำลังทำการวิเคราะห์ข้อมูลที่จัดกลุ่มจากต้นไม้ในสี่กลุ่ม ฉันได้รับข้อมูลเกี่ยวกับคุณลักษณะ 35 รายการสำหรับต้นไม้แต่ละต้นและฉันจะผ่านแต่ละแอตทริบิวต์เพื่อตรวจสอบว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญในคุณลักษณะนั้นหรือไม่ อย่างไรก็ตามในสองกรณีสมมติฐาน ANOVA นั้นถูกละเมิดเล็กน้อยเนื่องจากความแปรปรวนไม่เท่ากัน (ตามการทดสอบของ Levene โดยใช้ alpha = .05)

1) ถ้าขนาดตัวอย่างเท่ากันคุณไม่มีปัญหามากนัก ANOVA ค่อนข้าง (ระดับ -) มีความทนทานต่อความแปรปรวนที่ต่างกัน

2) การทดสอบความเท่าเทียมกันของความแปรปรวนก่อนที่จะตัดสินใจว่าจะสมมติว่ามันถูกแนะนำโดยจำนวนการศึกษา หากคุณมีข้อสงสัยอย่างแท้จริงว่าพวกเขาจะใกล้เคียงกันมันจะเป็นการดีกว่าถ้าคุณคิดว่าพวกเขาไม่เท่ากัน

อ้างอิงบางส่วน:

Zimmerman, DW (2004),
"บันทึกเกี่ยวกับการทดสอบเบื้องต้นของความเท่าเทียมกันของความแปรปรวน"
br เจคณิตศาสตร์ สถิติ จิตวิทยา , พฤษภาคม ; 57 (พอยต์ 1): 173-81
http://www.ncbi.nlm.nih.gov/pubmed/15171807

เฮนริกให้การอ้างอิงสามรายการที่นี่

3) มันเป็นขนาดเอฟเฟกต์ที่สำคัญมากกว่าตัวอย่างของคุณมีขนาดใหญ่พอที่จะบอกคุณว่ามันแตกต่างกันอย่างมีนัยสำคัญ ดังนั้นในกลุ่มตัวอย่างขนาดใหญ่ความแตกต่างเล็ก ๆ น้อย ๆ จะแสดงให้เห็นว่ามีความสำคัญอย่างมากจากการทดสอบของ Levene แต่จะไม่มีผลกระทบใด ๆ หากตัวอย่างมีขนาดใหญ่และขนาดผลกระทบ - อัตราส่วนของความแปรปรวนหรือความแตกต่างของความแปรปรวน - ค่อนข้างใกล้เคียงกับที่ควรจะเป็นดังนั้นค่า p จะไม่มีผลใด ๆ (ในอีกตัวอย่างหนึ่งขนาดเล็กค่า p ที่ดีคือความสะดวกสบายเล็กน้อยวิธีการทดสอบไม่ตอบคำถามที่ถูกต้อง)

โปรดทราบว่ามีการปรับประเภท Welch-Satterthwaite เพื่อประเมินข้อผิดพลาดมาตรฐานที่เหลือและ df ใน ANOVA เช่นเดียวกับที่มีในการทดสอบสองตัวอย่าง

  1. ใช้การทดสอบแบบไม่อิงพารามิเตอร์เช่น Wilcoxon (ถ้าเป็นเช่นนั้นแบบใด)

หากคุณสนใจในตัวเลือกการเปลี่ยนตำแหน่งคุณยังคงถือว่าสเปรดคงที่ หากคุณสนใจทางเลือกทั่วไปที่มากกว่านั้นคุณอาจลองพิจารณาดู k-sample ที่เทียบเท่ากับการทดสอบ Wilcoxon คือการทดสอบ Kruskal-Wallis

ทำการแก้ไขบางอย่างกับผลการวิเคราะห์ความแปรปรวน

ดูคำแนะนำข้างต้นของฉันในการพิจารณา Welch-Satterthwaite นั่นเป็น 'การแก้ไข'

(หรือมิฉะนั้นคุณอาจใช้ ANOVA เป็นชุดทดสอบเวลช์แบบคู่ในกรณีนี้คุณอาจต้องการดู Bonferroni หรือสิ่งที่คล้ายกัน)

ฉันได้อ่านบางสิ่งที่แนะนำว่า heteroscedasticity ไม่ใช่ปัญหาใหญ่สำหรับ ANOVA เว้นแต่ว่าค่าเฉลี่ยและความแปรปรวนจะมีความสัมพันธ์กัน

คุณต้องอ้างอะไรแบบนั้น เมื่อดูสถานการณ์หลายอย่างด้วยการทดสอบ t ฉันไม่คิดว่ามันเป็นเรื่องจริงอย่างชัดเจนดังนั้นฉันจึงต้องการดูว่าทำไมพวกเขาถึงคิดเช่นนั้น บางทีสถานการณ์ถูก จำกัด ในบางวิธี มันคงจะดีถ้าเป็นเช่นนั้นเพราะแบบจำลองเชิงเส้นทั่วไปที่ใช้บ่อยนั้นสามารถช่วยสถานการณ์นี้ได้

ในที่สุดฉันควรเพิ่มว่าฉันกำลังทำการวิเคราะห์นี้เพื่อตีพิมพ์ในวารสารที่มีการตรวจสอบโดยเพื่อนดังนั้นวิธีการใดก็ตามที่ฉันใช้จะต้องผ่านการรวมกลุ่มกับผู้ตรวจสอบ

เป็นการยากมากที่จะคาดการณ์สิ่งที่อาจทำให้ผู้ตรวจสอบของคุณพึงพอใจ พวกเราส่วนใหญ่ไม่ได้ทำงานกับต้นไม้


12

มันไม่จริงยากมากที่จะจัดการ heteroscedasticity ในโมเดลเชิงเส้นอย่างง่าย (เช่นโมเดล ANOVA แบบหนึ่งหรือสองทาง)

ความทนทานของ ANOVA

ก่อนอื่นตามที่คนอื่น ๆ ทราบ ANOVA นั้นแข็งแกร่งอย่างน่าอัศจรรย์ในการเบี่ยงเบนจากสมมติฐานของความแปรปรวนที่เท่ากันโดยเฉพาะอย่างยิ่งถ้าคุณมีข้อมูลที่สมดุลประมาณ (จำนวนการสังเกตที่เท่ากันในแต่ละกลุ่ม) การทดสอบเบื้องต้นเกี่ยวกับความแปรปรวนที่เท่ากันในทางกลับกันไม่ได้ (แม้ว่าการทดสอบของ Levene นั้นจะดีกว่าแบบทดสอบF -test ทั่วไปในตำราเรียน) ดังที่ George Box กล่าวไว้:

เพื่อให้การทดสอบเบื้องต้นเกี่ยวกับความแปรปรวนค่อนข้างเหมือนกับการลงทะเลในเรือพายเพื่อดูว่าเงื่อนไขสงบพอสำหรับเรือเดินสมุทรออกจากท่าเรือหรือไม่!

แม้ว่า ANOVA นั้นแข็งแกร่งมากเนื่องจากเป็นเรื่องง่ายมากที่จะคำนึงถึงความแตกต่างระหว่างกัน แต่ก็มีเหตุผลเล็กน้อยที่จะไม่ทำเช่นนั้น

การทดสอบแบบไม่มีพารามิเตอร์

หากคุณสนใจในความแตกต่างของค่าเฉลี่ยการทดสอบที่ไม่ใช่พารามิเตอร์ (เช่นการทดสอบ Kruskal – Wallis) นั้นไม่มีประโยชน์ใด ๆ พวกเขาทดสอบความแตกต่างระหว่างกลุ่ม แต่ไม่ทำอยู่ในวิธีทดสอบทั่วไป

ตัวอย่างข้อมูล

มาสร้างตัวอย่างง่ายๆของข้อมูลที่ใครอยากใช้ ANOVA แต่ที่สมมติฐานของความแปรปรวนที่เท่ากันนั้นไม่เป็นความจริง

set.seed(1232)
pop = data.frame(group=c("A","B","C"),
                 mean=c(1,2,5),
                 sd=c(1,3,4))
d = do.call(rbind, rep(list(pop),13))
d$x = rnorm(nrow(d), d$mean, d$sd)

เรามีสามกลุ่มที่มีความแตกต่าง (ชัดเจน) ทั้งในวิธีการและผลต่าง:

stripchart(x ~ group, data=d)

Stripchart แสดงข้อมูลตัวอย่าง

การวิเคราะห์ความแปรปรวน

ไม่น่าแปลกใจที่ ANOVA ปกติจัดการเรื่องนี้ได้ดี:

> mod.aov = aov(x ~ group, data=d)
> summary(mod.aov)
            Df Sum Sq Mean Sq F value  Pr(>F)    
group        2  199.4   99.69   13.01 5.6e-05 ***
Residuals   36  275.9    7.66                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

แล้วกลุ่มไหนกัน? ลองใช้วิธี HSD ของ Tukey:

> TukeyHSD(mod.aov)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = x ~ group, data = d)

$group
        diff        lwr      upr     p adj
B-A 1.736692 -0.9173128 4.390698 0.2589215
C-A 5.422838  2.7688327 8.076843 0.0000447
C-B 3.686146  1.0321403 6.340151 0.0046867

ด้วยค่าP- 0.26 เราไม่สามารถเรียกร้องความแตกต่างใด ๆ (ในความหมาย) ระหว่างกลุ่ม A และ B และแม้ว่าเราไม่ได้คำนึงถึงว่าเราทำการเปรียบเทียบสามครั้งเราจะไม่ได้Pต่ำ- ค่า ( P  = 0.12):

> summary.lm(mod.aov)
[…]
Coefficients:
            Estimate Std. Error t value  Pr(>|t|)    
(Intercept)   0.5098     0.7678   0.664     0.511    
groupB        1.7367     1.0858   1.599     0.118    
groupC        5.4228     1.0858   4.994 0.0000153 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.768 on 36 degrees of freedom

ทำไมถึงเป็นอย่างนั้น? ขึ้นอยู่กับพล็อตที่มีคือความแตกต่างที่ชัดเจนสวย เหตุผลคือ ANOVA ถือว่าผลต่างเท่ากันในแต่ละกลุ่มและประมาณค่าเบี่ยงเบนมาตรฐานทั่วไปที่ 2.77 (แสดงเป็น 'ข้อผิดพลาดมาตรฐานที่เหลือ' ในsummary.lmตารางหรือคุณสามารถรับได้โดยการหาสแควร์รูทของค่าเฉลี่ยที่เหลือ (7.66) ในตาราง ANOVA)

แต่กลุ่ม A มีค่าเบี่ยงเบนมาตรฐาน (ประชากร) เท่ากับ 1 และค่าสูงเกินจริงของ 2.77 นี้ทำให้ (ยากโดยไม่จำเป็น) ที่จะได้รับผลลัพธ์ที่มีนัยสำคัญทางสถิตินั่นคือเรามีการทดสอบที่ใช้พลังงานต่ำเกินไป

'ANOVA' ที่มีความแปรปรวนไม่เท่ากัน

ดังนั้นวิธีที่จะพอดีกับรูปแบบที่เหมาะสมหนึ่งที่คำนึงถึงความแตกต่างในความแปรปรวน? ง่ายใน R:

> oneway.test(x ~ group, data=d, var.equal=FALSE)
    One-way analysis of means (not assuming equal variances)

data:  x and group
F = 12.7127, num df = 2.000, denom df = 19.055, p-value = 0.0003107

ดังนั้นหากคุณต้องการเรียกใช้ 'ANOVA' แบบทางเดียวแบบง่ายใน R โดยไม่สมมติความแปรปรวนเท่ากันให้ใช้ฟังก์ชันนี้ มันเป็นส่วนขยายของ (Welch) t.test()สำหรับสองตัวอย่างที่มีความแปรปรวนไม่เท่ากัน

แต่น่าเสียดายที่มันไม่ได้ทำงานกับTukeyHSD()(หรือฟังก์ชั่นอื่น ๆ ส่วนใหญ่ที่คุณใช้ในaovวัตถุ) ดังนั้นแม้ว่าเราค่อนข้างแน่ใจว่ามีมีความแตกต่างของกลุ่มเราไม่ทราบว่าที่พวกเขามี

การสร้างแบบจำลองความแตกต่างที่แข็งแกร่ง

ทางออกที่ดีที่สุดคือการสร้างแบบจำลองผลต่างอย่างชัดเจน และมันง่ายมากใน R:

> library(nlme)
> mod.gls = gls(x ~ group, data=d,
                weights=varIdent(form= ~ 1 | group))
> anova(mod.gls)
Denom. DF: 36 
            numDF  F-value p-value
(Intercept)     1 16.57316  0.0002
group           2 13.15743  0.0001

แน่นอนว่ายังคงมีความแตกต่างอย่างมีนัยสำคัญ แต่ตอนนี้ความแตกต่างระหว่างกลุ่ม A และ B ก็สำคัญเช่นกัน ( P  = 0.025):

> summary(mod.gls)
Generalized least squares fit by REML
  Model: x ~ group
  […]
Variance function:
 Structure: Different standard
            deviations per stratum
 Formula: ~1 | group 
 Parameter estimates:
       A        B        C 
1.000000 2.444532 3.913382 

Coefficients:
               Value Std.Error  t-value p-value
(Intercept) 0.509768 0.2816667 1.809829  0.0787
groupB      1.736692 0.7439273 2.334492  0.0253
groupC      5.422838 1.1376880 4.766542  0.0000
[…]
Residual standard error: 1.015564 
Degrees of freedom: 39 total; 36 residual

ดังนั้นการใช้แบบจำลองที่เหมาะสมจะช่วยได้! นอกจากนี้โปรดทราบว่าเราได้รับการประมาณค่าเบี่ยงเบนมาตรฐาน (ญาติ) ค่าเบี่ยงเบนมาตรฐานโดยประมาณของกลุ่ม A สามารถพบได้ที่ด้านล่างของผลลัพธ์ 1.02 ค่าเบี่ยงเบนมาตรฐานโดยประมาณของกลุ่ม B คือ 2.44 คูณนี่หรือ 2.48 และค่าเบี่ยงเบนมาตรฐานโดยประมาณของกลุ่ม C เท่ากับ 3.97 (ประเภทintervals(mod.gls)เพื่อรับช่วงความมั่นใจสำหรับการเบี่ยงเบนมาตรฐานสัมพัทธ์ของกลุ่ม B และ C)

การแก้ไขสำหรับการทดสอบหลายรายการ

อย่างไรก็ตามเราควรแก้ไขให้ถูกต้องสำหรับการทดสอบหลาย ๆ ครั้ง นี่เป็นเรื่องง่ายโดยใช้ไลบรารี่ 'multcomp' น่าเสียดายที่มันไม่มีการสนับสนุนในตัวสำหรับวัตถุ 'gls' ดังนั้นเราจะต้องเพิ่มฟังก์ชั่นตัวช่วยก่อน:

model.matrix.gls <- function(object, ...)
    model.matrix(terms(object), data = getData(object), ...)
model.frame.gls <- function(object, ...)
  model.frame(formula(object), data = getData(object), ...)
terms.gls <- function(object, ...)
  terms(model.frame(object),...)

ตอนนี้ไปทำงานกันเถอะ:

> library(multcomp)
> mod.gls.mc = glht(mod.gls, linfct = mcp(group = "Tukey"))
> summary(mod.gls.mc)
[…]
Linear Hypotheses:
           Estimate Std. Error z value Pr(>|z|)    
B - A == 0   1.7367     0.7439   2.334   0.0480 *  
C - A == 0   5.4228     1.1377   4.767   <0.001 ***
C - B == 0   3.6861     1.2996   2.836   0.0118 *  

ยังคงมีความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่ม A และกลุ่ม B! ☺และเรายังสามารถรับช่วงความมั่นใจ (พร้อมกัน) สำหรับความแตกต่างระหว่างกลุ่มหมายความว่า:

> confint(mod.gls.mc)
[…]
Linear Hypotheses:
           Estimate lwr     upr    
B - A == 0 1.73669  0.01014 3.46324
C - A == 0 5.42284  2.78242 8.06325
C - B == 0 3.68615  0.66984 6.70245

การใช้แบบจำลองที่ถูกต้องโดยประมาณ (ที่นี่) เราสามารถเชื่อถือผลลัพธ์เหล่านี้ได้!

โปรดทราบว่าสำหรับตัวอย่างง่ายๆนี้ข้อมูลสำหรับกลุ่ม C ไม่ได้เพิ่มข้อมูลใด ๆ เกี่ยวกับความแตกต่างระหว่างกลุ่ม A และ B เนื่องจากเราทำแบบจำลองทั้งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่ละกลุ่ม เราอาจใช้การทดสอบค่าt ในการจับคู่แบบคู่เพื่อการเปรียบเทียบหลายรายการ:

> pairwise.t.test(d$x, d$group, pool.sd=FALSE)
    Pairwise comparisons using t tests with non-pooled SD 

data:  d$x and d$group 

  A       B      
B 0.03301 -      
C 0.00098 0.02032

P value adjustment method: holm 

อย่างไรก็ตามสำหรับแบบจำลองที่ซับซ้อนมากขึ้นเช่นตัวแบบสองทางหรือตัวแบบเชิงเส้นที่มีตัวทำนายหลายตัวการใช้ GLS (กำลังสองน้อยที่สุดทั่วไป) และการสร้างแบบจำลองอย่างชัดเจนฟังก์ชันความแปรปรวนเป็นทางออกที่ดีที่สุด

และฟังก์ชันความแปรปรวนไม่จำเป็นต้องเป็นค่าคงที่ที่แตกต่างกันในแต่ละกลุ่ม เราสามารถกำหนดโครงสร้างของมัน ตัวอย่างเช่นเราสามารถสร้างแบบจำลองความแปรปรวนเป็นพลังของค่าเฉลี่ยของแต่ละกลุ่ม (และเพียงแค่ต้องการประมาณหนึ่งพารามิเตอร์, เลขชี้กำลัง) หรืออาจเป็นลอการิทึมของหนึ่งในตัวทำนายในรูปแบบ ทั้งหมดนี้เป็นเรื่องง่ายมากกับ GLS (และgls()ใน R)

สี่เหลี่ยมจัตุรัสทั่วไปที่น้อยที่สุดคือ IMHO ซึ่งเป็นเทคนิคการสร้างแบบจำลองทางสถิติที่มีการใช้งานน้อยมาก แทนที่จะกังวลเกี่ยวกับการเบี่ยงเบนจากสมมติฐานของโมเดลจำลองความเบี่ยงเบนเหล่านั้น!


1
ขอบคุณสำหรับคำตอบ! ฉันไม่เข้าใจเกี่ยวกับผลลัพธ์จาก oneway.test () และ gls () สำหรับการแปรปรวน ANOVA ที่ไม่เท่ากัน (Welch ANOVA) ค่า p ของ oneway.test () คือ p-value = 0.0003107 แต่ค่า p จาก gls (กลุ่ม x ~, data = d, weights = varIdent (form = ~ 1 | กลุ่ม)) คือ 0.0001 ทำไมผลลัพธ์ทั้งสองนี้จึงแตกต่างกัน
WCMC

2
มีความกังวลเพิ่มขึ้นเกี่ยวกับการแก้ไขสำหรับการทดสอบหลายครั้งฉันคิดว่าการรายงานค่า p ที่ไม่ถูกต้องพร้อมกับจำนวนการเปรียบเทียบที่คุณทำมีความโปร่งใสมากขึ้น โดยเฉพาะอย่างยิ่งเนื่องจากคุณอาจไม่สนใจในการเปรียบเทียบแบบเป็นคู่ทุกครั้งเมื่อทำการทดสอบใน R ดังนั้นการแก้ไขจะทำโดยคำนึงถึงการเปรียบเทียบที่ไม่มีความสนใจ
Nakx

7
  1. อาจมีการเปลี่ยนแปลงข้อมูลของคุณบางอย่างที่ทำให้เกิดการแจกแจงแบบปกติที่ยอมรับได้ แน่นอนตอนนี้การอนุมานของคุณเกี่ยวกับข้อมูลที่แปลงแล้วไม่ใช่ข้อมูลที่ไม่ถูกแปลง

  2. สมมติว่าคุณกำลังพูดถึง ANOVA oneway การทดสอบ Kruskal-Wallisเป็นแอนะล็อก nonparametric ที่เหมาะสมกับ ANOVA oneway การทดสอบของดันน์ (ไม่ทดสอบสวนหลากหลายตำแหน่งรวม) อาจจะเป็นที่พบมากที่สุดที่เหมาะสมทดสอบอิงพารามิเตอร์สำหรับการโพสต์เฉพาะกิจเปรียบเทียบหลายคู่ที่ชาญฉลาดแม้ว่าจะมีการทดสอบอื่น ๆ เช่นการทดสอบคอนโอเวอร์-Iman (อย่างเคร่งครัดประสิทธิภาพมากขึ้นกว่าการทดสอบของดันน์หลังจากปฏิเสธ ของ kruskal-Wallis) และการทดสอบ Dwass-Steele-Crichtlow-Fligner

  3. ขั้นตอนการเปรียบเทียบหลายอย่าง (ไม่ว่าจะเป็นความหลากหลายของอัตราความผิดพลาดที่เหมาะกับครอบครัวหรือความหลากหลายของอัตราการค้นพบที่ผิดพลาด ) ไม่มีอะไรเกี่ยวข้องโดยตรงกับสมมติฐานการทดสอบที่เฉพาะเจาะจงของคุณ (เช่นค่าปกติของข้อมูล)α (ความเต็มใจที่จะทำการปฏิเสธสมมติฐานที่ผิดพลาด) เนื่องจากคุณกำลังทำการทดสอบหลายครั้ง

ANOVA ขึ้นอยู่กับอัตราส่วนภายในกลุ่มและระหว่างความแปรปรวนของกลุ่ม ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย heteroscedasticity ในบริบทนี้ แต่ถ้าคุณหมายถึงความแปรปรวนที่ไม่เท่ากันระหว่างกลุ่มนั่นดูเหมือนว่าฉันจะทำลายตรรกะของสมมติฐานว่างของการทดสอบ

ข้อความค้นหา Google Scholar อย่างง่ายสำหรับ "การทดสอบของ Dunn" พร้อมกับคำทั่วไปจากวินัยของคุณควรส่งคืนตัวอย่างที่เผยแพร่มากมาย


อ้างอิง

Conover, WJ และ Iman, RL (1979) เกี่ยวกับขั้นตอนการเปรียบเทียบ-หลาย รายงานทางเทคนิค LA-7677-MS, ห้องปฏิบัติการวิทยาศาสตร์ Los Alamos

Crichtlow, DE และ Fligner, MA (1991) ในการเปรียบเทียบหลายกระจายฟรีในการวิเคราะห์ความแปรปรวนทางเดียว การสื่อสารในสถิติ - ทฤษฎีและวิธีการ , 20 (1): 127

Dunn, OJ (1964) เปรียบเทียบหลายใช้เงินก้อนยศ เทคนิค , 6 (3): 241–252


2
ตกลงขอบคุณสำหรับคำตอบนี้ แต่ฉันไม่ชัดเจนว่าคุณกำลังพูดอะไร เท่าที่ 'heteroscedasticity' ฉันคิดว่าฉันใช้คำนี้ในความหมายธรรมดา: "กลุ่มของตัวแปรสุ่มคือ heteroscedastic ถ้ามีประชากรย่อยที่มีความแตกต่างจากคนอื่น ๆ ที่นี่" ความแปรปรวน "สามารถวัดจากความแปรปรวนหรือ การวัดการกระจายเชิงสถิติอื่น ๆ "- Wikipedia ในข้อมูลของฉันความแปรปรวนของกลุ่มย่อยไม่เท่ากัน (จากการทดสอบของเลวีน) ดังนั้นฉันจึงอธิบายพวกเขาว่าเป็นแบบเฮเทอโรเซสติก สิ่งนี้ไม่ถูกต้องหรือ
จัสแม็กซ์

1
สิ่งที่ฉันพยายามพูดถึงจริงๆคือช่องว่างระหว่างสถิติของตำราเรียนกับโลกแห่งความเป็นจริง หนังสือทุกเล่มบอกว่า "ความแปรปรวนจะต้องเท่ากับ ANOVA" แต่แน่นอนว่าพวกเขาไม่เคยเป็น ดังนั้นเราจะตัดทอนโดยพลการ ณ จุดใดจุดหนึ่งและเปลี่ยนไปใช้การทดสอบอื่น - ถ้าใช่ ณ จุดใด ในสาขาของฉัน (ชีววิทยาพืช) คนส่วนใหญ่ใช้การทดสอบอะไรก็ตามที่พวกเขาได้รับการฝึกฝนให้ใช้โดยไม่คิดมาก ฉันไม่พอใจกับมัน ฉันชอบคำแนะนำสำหรับหนังสือ / เว็บไซต์ที่กล่าวถึงการใช้สถิติ 'เชิงปฏิบัติ' เช่นการทดสอบที่จะใช้เมื่อใดและเพราะเหตุใด ขอบคุณสำหรับคำแนะนำของ Dunn ที่ช่วยได้
Jas Max

2
อ๊ะสมมติฐานของผลต่างเท่ากันคือผลต่างประชากรไม่ใช่ผลต่างตัวอย่าง คุณสามารถอนุมานได้ว่าความแปรปรวนของประชากรมีค่าเท่ากัน ... ผ่านการทดสอบสายตาหรือโดยการทดสอบทางสถิติ
Alexis

1
คุณจะรู้อะไรเกี่ยวกับความแปรปรวนประชากรได้โดยไม่ต้องประเมินความแปรปรวนตัวอย่าง ฉันแปลความหมายของการทดสอบ Levene ของ p-val ว่า "สมมติว่าความแปรปรวนของประชากรเท่ากันความแตกต่างของตัวอย่างของคุณจะแตกต่างกันมากขนาดนี้" ถ้าฉันได้ค่า p-val ต่ำฉันก็ปฏิเสธสมมติฐานที่ว่าความแปรปรวนของประชากรเท่ากันและไม่สามารถใช้ ANOVA ได้ Kruskal-Wallace ดูเหมือนจะเป็นทางเลือกที่ดี แต่ควรเปลี่ยนข้อมูลให้เป็นไปตามสมมติฐานของ ANOVA หรือไม่และทำไมเป็นเช่นนั้น?
Jas Max

1
นอกจากนี้การทดสอบของ Levene คือ p <.05 การทดสอบและการตัดทอนที่เหมาะสมสำหรับการตัดสินใจครั้งนี้หรือไม่ สิ่งที่เกี่ยวกับโอไบรอันบาร์ตเลตต์ ... ผลการทดสอบเหล่านี้อาจแตกต่างกันไปอย่างมากและฉันไม่รู้ว่าจะใช้อะไรจริง ๆ ดังนั้นฉันไปกับเลวีนเพราะมันดูเหมือนจะอนุรักษ์นิยมที่สุด แต่บางทีนั่นอาจเกินความเป็นไปได้ - โดยอาจเร็วเกินกว่าที่จะละทิ้ง ANOVA ฉันเปลี่ยนไปใช้การทดสอบที่ลดกำลังทางสถิติของการวิเคราะห์ของฉันโดยไม่จำเป็น
Jas Max

1

ฟังดูราวกับว่าคุณกำลังลงมือทำและพยายามทำให้ดีที่สุด แต่เป็นห่วงความพยายามของคุณจะไม่ดีพอที่จะนำเสนอบทความของคุณผ่านผู้ตรวจสอบ เป็นปัญหาที่แท้จริงของโลกมาก ฉันคิดว่านักวิจัยทุกคนต้องดิ้นรนกับการวิเคราะห์ที่ดูเหมือนจะเป็นแนวเขตหรือแม้กระทั่งการละเมิดสมมติฐานที่ตั้งขึ้นเป็นครั้งคราว หลังจากทั้งหมดมีบทความนับล้านประเมินเช่นผลการรักษาใน 3 กลุ่มเล็ก ๆ ของหนูกับสิ่งเช่น 6-7 หนูในแต่ละกลุ่ม จะรู้ได้อย่างไรว่าสมมติฐานของ Anova พอใจในบทความนี้หรือไม่!

ฉันได้ตรวจสอบเอกสารจำนวนมากโดยเฉพาะอย่างยิ่งในด้านพยาธิสรีรวิทยาของหัวใจและหลอดเลือดและจริง ๆ แล้วไม่เคยรู้สึกมั่นใจ 100% ว่าจะเชื่อถือข้อมูลได้หรือไม่ในบทความที่ฉันอ่าน แต่สำหรับผมเป็นนักวิจารณ์ที่จริงผมมักจะคิดว่าปัญหาจะเกิดขึ้นที่ดังนั้นหลายระดับในด้านวิทยาศาสตร์ที่มีจุดอาจจะเล็ก ๆ น้อย ๆ ในการขุดลึกลงไปในเกินไปสถิติ - หลังจากที่ทุกชุดทั้งอาจจะมีการประดิษฐ์และฉันจะไม่เคย ในหนึ่งล้านปีสามารถบอกได้ ดังนั้นจะมีองค์ประกอบของความไว้วางใจในงานนี้เสมอซึ่งนักวิจัยจะต้องไม่ใช้ในทางที่ผิด

ข้อเสนอแนะในโลกแห่งความเป็นจริงที่ฉันจะให้คือคุณต้องคิดทุกอย่างอย่างรอบคอบก่อนที่จะส่งและให้แน่ใจว่าคุณจะสามารถตอบคำถามใด ๆ ที่ผู้ตรวจสอบถาม ตราบใดที่คุณทำอย่างดีที่สุดความตั้งใจของคุณมีความซื่อสัตย์และคุณนอนหลับสบายในเวลากลางคืนฉันคิดว่าคุณควรจะโอเค


2
ฉันไม่แน่ใจว่าฉันเห็นด้วยที่ไม่สามารถตรวจพบสิ่งประดิษฐ์: ฉันเคยเห็นมาก่อน
อเล็กซิส
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.