เราจำเป็นต้องมีการทดสอบระดับโลกก่อนการทดสอบแบบโพสต์เฉพาะกิจหรือไม่?


54

ฉันมักจะได้ยินว่าการทดสอบโพสต์เฉพาะกิจหลังจาก ANOVA สามารถใช้ได้เฉพาะในกรณีที่ ANOVA นั้นมีความสำคัญ

  • อย่างไรก็ตามการทดสอบโพสต์เฉพาะกิจจะปรับค่าเพื่อให้อัตราการพิมพ์ผิดพลาดทั่วโลกอยู่ที่ 5% ใช่ไหม?p
  • แล้วทำไมเราต้องมีการทดสอบระดับโลกก่อน
  • หากเราไม่ต้องการการทดสอบระดับโลกคำศัพท์ "post hoc" ถูกต้องหรือไม่

  • หรือมีการทดสอบหลังจบหลายแบบบางคนคิดว่าเป็นผลการทดสอบระดับโลกที่สำคัญและอื่น ๆ โดยไม่มีข้อสันนิษฐานนั้น?

คำตอบ:


58

เนื่องจากการทดสอบเปรียบเทียบหลายครั้งมักเรียกว่า 'การทดสอบหลังการทดสอบ' คุณคิดว่าการทดสอบนั้นมีเหตุผลตามการวิเคราะห์ความแปรปรวนทางเดียว อันที่จริงแล้วมันไม่ได้เป็นเช่นนั้น

" การปฏิบัติร่วมกันที่โชคร้ายคือการทำการเปรียบเทียบหลายครั้งเฉพาะเมื่อสมมติฐานของฮัลล์ของความเป็นเนื้อเดียวกันถูกปฏิเสธ " ( Hsu, หน้า 177 )

ผลลัพธ์ของการทดสอบหลังการทดสอบจะใช้ได้หรือไม่ถ้าค่า P โดยรวมของ ANOVA มากกว่า 0.05

น่าแปลกที่คำตอบคือใช่ ด้วยข้อยกเว้นหนึ่งข้อการทดสอบหลังการทดสอบจะใช้ได้แม้ว่า ANOVA โดยรวมจะไม่พบความแตกต่างอย่างมีนัยสำคัญระหว่างวิธีการ

ข้อยกเว้นคือการทดสอบเปรียบเทียบหลายรายการแรกที่คิดค้นการทดสอบความแตกต่างที่สำคัญของฟิชเชอร์ไลเฟอร์ (LSD) ที่ได้รับการป้องกัน ขั้นตอนแรกของการทดสอบ LSD ที่ได้รับการป้องกันคือการตรวจสอบว่า ANOVA โดยรวมปฏิเสธสมมติฐานว่างเปล่าของวิธีการที่เหมือนกันหรือไม่ หากไม่เป็นเช่นนั้นไม่ควรทำการเปรียบเทียบแต่ละรายการ แต่การทดสอบ LSD ที่ได้รับการป้องกันนี้ล้าสมัยแล้วและไม่แนะนำอีกต่อไป

เป็นไปได้หรือไม่ที่จะได้ผลลัพธ์ 'สำคัญ' จากการทดสอบเปรียบเทียบหลายครั้งแม้ว่า ANOVA โดยรวมจะไม่สำคัญหรือไม่?

ใช่มันเป็นไปได้ ข้อยกเว้นคือการทดสอบของ Scheffe มันเกี่ยวพันกับการทดสอบ F โดยรวม หาก ANOVA โดยรวมมีค่า P มากกว่า 0.05 การทดสอบของ Scheffe จะไม่พบการทดสอบหลังการทดสอบที่สำคัญ ในกรณีนี้การทดสอบการโพสต์ตาม ANOVA ที่ไม่สำคัญโดยรวมนั้นเป็นการเสียเวลา แต่จะไม่นำไปสู่ข้อสรุปที่ไม่ถูกต้อง แต่การทดสอบเปรียบเทียบหลายแบบอื่น ๆ สามารถค้นหาความแตกต่างอย่างมีนัยสำคัญ (บางครั้ง) แม้ว่า ANOVA โดยรวมจะไม่แสดงความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่ม

ฉันจะเข้าใจความแตกต่างที่ชัดเจนระหว่าง ANOVA ที่บอกว่าผลที่เกิดขึ้นหมายความว่าทุกกลุ่มมีความเหมือนกันและการทดสอบหลังพบความแตกต่าง?

การวิเคราะห์ความแปรปรวนทางเดียวโดยรวมทดสอบสมมติฐานว่างว่ากลุ่มการรักษาทั้งหมดมีค่าเฉลี่ยเท่ากันดังนั้นความแตกต่างใด ๆ ที่คุณสังเกตเห็นเกิดขึ้นเนื่องจากการสุ่มตัวอย่าง การทดสอบการโพสต์แต่ละครั้งจะทดสอบสมมติฐานว่างว่าสองกลุ่มนั้นมีค่าเฉลี่ยที่เหมือนกัน

การทดสอบการโพสต์จะเน้นมากขึ้นดังนั้นมีอำนาจในการค้นหาความแตกต่างระหว่างกลุ่มแม้เมื่อ ANOVA โดยรวมรายงานว่าความแตกต่างระหว่างค่าเฉลี่ยนั้นไม่มีนัยสำคัญทางสถิติ

ผลลัพธ์ของ ANOVA โดยรวมมีประโยชน์หรือไม่?

ANOVA ทดสอบสมมติฐานว่างโดยรวมว่าข้อมูลทั้งหมดมาจากกลุ่มที่มีวิธีการเหมือนกัน หากนั่นคือคำถามเชิงทดลองของคุณ - ข้อมูลแสดงหลักฐานที่น่าเชื่อถือว่าค่าเฉลี่ยนั้นไม่เหมือนกันหรือเปล่าแล้ว ANOVA เป็นสิ่งที่คุณต้องการ บ่อยครั้งที่คำถามทดสอบของคุณเน้นและตอบคำถามมากกว่าโดยการทดสอบเปรียบเทียบหลายรายการ (การทดสอบหลังการทดสอบ) ในกรณีเหล่านี้คุณสามารถเพิกเฉยต่อผลการวิเคราะห์โดยรวมและข้ามไปที่ผลการทดสอบภายหลังได้อย่างปลอดภัย

โปรดทราบว่าการคำนวณการเปรียบเทียบหลายรายการทั้งหมดใช้ผลลัพธ์ Mean-Square จากตาราง ANOVA ดังนั้นแม้ว่าคุณจะไม่สนใจเกี่ยวกับค่าของ F หรือค่า P การทดสอบหลังยังคงต้องการให้คำนวณตาราง ANOVA


1
นี่คือคำตอบที่ดี Harvey - ขอบคุณที่เขียนมัน!
pmgjones

3
(+1) สองย่อหน้าสุดท้ายให้บริบทที่ดีสำหรับการทำความเข้าใจและเห็นคุณค่าคำตอบทั้งหมด
whuber

4
คำตอบที่ยอดเยี่ยมและฉันจะเพิ่มคำพูดจาก Maxwell และ Delaney (2004): "... วิธีการเหล่านี้ (เช่น Bonferroni, Tukey, Dunnet และอื่น ๆ ) ควรถูกมองว่าเป็นสิ่งทดแทนสำหรับการทดสอบรถโดยสารเพราะพวกเขาควบคุมอัลฟาที่คุณ ระดับที่ต้องการทั้งหมดด้วยตนเองจำเป็นต้องมีการทดสอบรถโดยสารอย่างมีนัยสำคัญก่อนที่จะดำเนินการวิเคราะห์ใด ๆ เหล่านี้ตามที่ทำบางครั้งเพียงทำหน้าที่ลด alphaEW ต่ำกว่าระดับที่ต้องการ (Bernhardson, 1975) และลดพลังงานอย่างไม่เหมาะสม "(หน้า 236) .
dfife

ฉันชอบ "มีพลังที่จะหาความแตกต่างระหว่างกลุ่ม ... "
SmallChess

ในขณะที่ไม่ได้อยู่ในคำถามฉันคิดว่าฉันควรพูดถึง - เพราะมันอาจจะไม่ชัดเจน - ว่าสถานการณ์กลับเป็นไปได้ในบางสถานการณ์ (ที่การทดสอบรถโดยสารปฏิเสธ แต่ไม่มีการเปรียบเทียบแบบคู่)
Glen_b

25

(1) การทดสอบโพสต์เฉพาะกิจอาจหรืออาจไม่บรรลุอัตราความผิดพลาดระดับโลกที่ระบุเล็กน้อยขึ้นอยู่กับ (ก) ว่านักวิเคราะห์กำลังปรับจำนวนการทดสอบและ (b) เท่าที่การทดสอบโพสต์เฉพาะกิจนั้นมีความเป็นอิสระ อื่น การใช้การทดสอบระดับโลกครั้งแรกเป็นการป้องกันที่แข็งแกร่งต่อความเสี่ยงของการเปิดเผยข้อมูลที่สำคัญ "ที่สำคัญ" จากการสอดแนมข้อมูลหลังการปลอมแปลง

(2) มีปัญหาเรื่องพลังงาน เป็นที่ทราบกันดีว่าการทดสอบ ANOVA F ทั่วโลกสามารถตรวจจับความแตกต่างของวิธีการได้แม้ในกรณีที่ไม่มีการทดสอบทีเป็นรายบุคคลของคู่ของวิธีใดก็ตามที่จะให้ผลลัพธ์ที่สำคัญ กล่าวอีกนัยหนึ่งในบางกรณีข้อมูลสามารถเปิดเผยได้ว่าวิธีการจริงอาจแตกต่างกัน แต่ไม่สามารถระบุด้วยความมั่นใจที่เพียงพอซึ่งหมายถึงคู่ที่แตกต่างกัน


Re (2): เมื่อคุณบอกว่า ANOVA แบบทางเดียวสามารถรายงานความแตกต่างอย่างมีนัยสำคัญเมื่อไม่มีการทดสอบ t-test แบบ pairwise คุณอ้างถึงการไม่ปรับแบบง่าย ("ไม่โพสต์" เช่นไม่ใช่กระบวนการของ Tukey หรืออะไรก็ตาม) -ทดสอบ T? ฉันคิดว่าสิ่งนี้จะเป็นไปไม่ได้ฉันคิดผิดหรือเปล่า?
อะมีบาพูดว่า Reinstate Monica

@ amoeba ถูกต้อง; ฉันหมายถึงการทดสอบแบบจับคู่แบบไม่ปรับ ขอบคุณสำหรับการชี้แจงจุดนี้
whuber

ขอบคุณ @whuber ฉันพยายามค้นหาการสนทนาของจุดนี้ที่นี่ใน CrossValidated แต่ไม่มีประโยชน์ ดังนั้นผมจึงโพสต์คำถามของฉันเองเกี่ยวกับวิธีการคือสถานการณ์ดังกล่าวเป็นไปได้: stats.stackexchange.com/questions/83030/... ฉันจะขอบคุณมากจริง ๆ ถ้าคุณสามารถทำอย่างละเอียดที่นั่น!
อะมีบาพูดว่า Reinstate Monica

3
@amoba และ @whuber: คุณอาจจะรู้เรื่องนี้ แต่ฉันต้องการชี้แจงต่อไป โปรดทราบว่าการทดสอบ ANOVA นั้นมีความสำคัญแม้ว่าจะไม่มีการทดสอบ HSD ของ Tukey ก็ตาม ตัวอย่าง R แบบง่ายพร้อมชุดข้อมูลที่สมดุลกับสามกลุ่ม:set.seed(249); group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)
Karl Ove Hufthammer

1
อย่างน้อยคุณก็ไม่สามารถคาดเดาได้ว่ามีความแตกต่างระหว่างสองวิธีกับความแตกต่างที่ใหญ่ที่สุดระหว่างกันเนื่องจากสมมติฐานว่างของ ANOVA คืออย่างน้อยหนึ่งคู่ของวิธีที่แตกต่างกัน?
Speldosa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.