ฉันสามารถเชื่อถือผลลัพธ์ ANOVA สำหรับ DV แบบกระจายที่ไม่ใช่แบบปกติได้หรือไม่


22

ฉันวิเคราะห์การทดสอบด้วยการวัดซ้ำ ANOVA ANOVA คือ 3x2x2x2x3 ที่มี 2 ระหว่างปัจจัยเรื่องและ 3 ภายใน (N = 189) อัตราความผิดพลาดเป็นตัวแปรตาม การกระจายตัวของอัตราความผิดพลาดมีความเบี่ยงเบน 3.64 และความหนาเป็น 15.75 ความเบ้และความโด่งเป็นผลมาจาก 90% ของอัตราความผิดพลาดหมายถึงการเป็น 0 การอ่านหัวข้อก่อนหน้านี้บางส่วนเกี่ยวกับการทดสอบภาวะปกติที่นี่ทำให้ฉันสับสนเล็กน้อย ฉันคิดว่าถ้าคุณมีข้อมูลที่ไม่กระจายตามปกติมันเป็นประโยชน์สูงสุดของคุณในการแปลงถ้าเป็นไปได้ แต่ดูเหมือนว่าผู้คนจำนวนมากคิดว่าการวิเคราะห์ข้อมูลที่ไม่ปกติด้วย ANOVA หรือ T-test เป็นที่ยอมรับ ฉันสามารถไว้วางใจผลลัพธ์ของ ANOVA ได้หรือไม่?

(FYI ในอนาคตฉันตั้งใจจะวิเคราะห์ข้อมูลประเภทนี้ใน R ด้วยตัวแบบผสมที่มีการแจกแจงแบบทวินาม)


1
คุณสามารถลิงค์ไปยังกระทู้เหล่านี้ได้ไหม? สัญชาตญาณของฉันคือ "NOOO ไม่ไม่" แต่ฉันแทบจะไม่เป็นผู้เชี่ยวชาญและฉันสนใจที่จะอ่านข้อโต้แย้งเหล่านี้
Matt Parker

4
คุณแน่ใจว่าไม่สามารถเชื่อถือค่า p ใด ๆ ที่ได้จากการแจกแจงแบบ F กับข้อมูลประเภทนั้น!
whuber

3
หลายคนอ้างถึงความแข็งแกร่งของ ANOVA เป็นเหตุผลในการใช้กับข้อมูลที่ไม่ปกติ IMHO ความทนทานไม่ได้เป็นคุณลักษณะทั่วไปของการทดสอบ แต่คุณต้องระบุ a) อย่างแม่นยำว่าการละเมิดข้อสันนิษฐานใดของการทดสอบนั้นมีประสิทธิภาพ (ปกติ, sphericity, ... ), b) ระดับการละเมิดเหล่านี้ไม่มีอะไรใหญ่ effect, c) สิ่งที่จำเป็นต้องมีสำหรับการทดสอบเพื่อแสดงความทนทาน (ขนาดใหญ่ & ขนาดเซลล์เท่ากัน ... ) ในการออกแบบแยกส่วนของคุณฉันชอบที่จะให้ใครสักคนระบุสมมติฐานที่แม่นยำของความกลมกลืนและความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วม มันเป็นเรื่องที่เหลือเชื่อในกรณี 2 แฟคทอเรียล
caracal

3
@ แมทดูเหมือนว่า 90% ของจำนวนที่เหลือจะเป็นศูนย์ หากเป็นเช่นนั้นจะไม่มีการเปลี่ยนแปลงใด ๆ ที่จะทำให้ส่วนที่เหลืออยู่ใกล้เคียงกับระยะไกลเป็นปกติ การศึกษาแบบจำลองได้แสดงให้เห็นว่าค่า p จากการทดสอบ F มีความไวสูงต่อการเบี่ยงเบนจากภาวะปกติ (ในกรณีของคุณเป็นไปได้ค่อนข้างมากที่ตัวหารในการทดสอบ F จะเป็นศูนย์: ตัวบ่งชี้ที่คมชัดว่าสิ่งต่าง ๆ สามารถผิดพลาดได้มากน้อยแค่ไหน) คุณต้องมีวิธีการที่แตกต่างออกไป สิ่งที่ต้องทำขึ้นอยู่กับสาเหตุที่เหลืออยู่จำนวนมากเป็นศูนย์ ขาดความแม่นยำเพียงพอในการวัด
whuber

2
@Matt ที่ฟังดูเหมาะสมกว่าสมมติว่าข้อมูลของคุณมีการนับ การพิจารณาที่น่าดึงดูดใจอีกประการหนึ่งคือการตอบสนองแบบทวินามเชิงลบที่สูงเกินจริง ( ats.ucla.edu/stat/r/dae/zinbreg.htm )
whuber

คำตอบ:


20

เช่นเดียวกับการทดสอบพารามิเตอร์อื่น ๆ การวิเคราะห์ความแปรปรวนถือว่าเป็นข้อมูลที่เหมาะสมกับการแจกแจงแบบปกติ หากตัวแปรการวัดของคุณไม่ได้รับการกระจายโดยปกติคุณอาจเพิ่มโอกาสในการเกิดผลบวกที่ผิดพลาดหากคุณวิเคราะห์ข้อมูลด้วยการทดสอบโนวาหรือการทดสอบอื่นที่ถือว่าเป็นเรื่องปกติ โชคดีที่ anova นั้นไม่ไวต่อความเบี่ยงเบนปานกลางจากภาวะปกติมากนัก การศึกษาแบบจำลองโดยใช้การแจกแจงแบบไม่ธรรมดาที่หลากหลายแสดงให้เห็นว่าอัตราการบวกผิด ๆ ไม่ได้รับผลกระทบมากนักจากการละเมิดสมมติฐานนี้ (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996) นี่คือเนื่องจากเมื่อคุณใช้ตัวอย่างสุ่มจำนวนมากจากประชากรค่าเฉลี่ยของตัวอย่างเหล่านั้นจะถูกกระจายโดยทั่วไปประมาณแม้ว่าประชากรจะไม่ปกติ

เป็นไปได้ที่จะทดสอบความดีพอดีของข้อมูลที่ตั้งค่าเป็นการแจกแจงแบบปกติ ฉันไม่แนะนำให้คุณทำเช่นนี้เพราะชุดข้อมูลจำนวนมากที่ไม่ได้มีนัยสำคัญจะเหมาะอย่างยิ่งสำหรับ anova

ถ้าคุณมีชุดข้อมูลที่มีขนาดใหญ่พอฉันขอแนะนำให้คุณดูฮิสโตแกรมความถี่ ถ้ามันดูปกติมากขึ้นหรือน้อยลงไปข้างหน้าและดำเนินการ anova หากดูเหมือนว่าการแจกแจงแบบปกติที่ถูกผลักไปด้านใดด้านหนึ่งเช่นข้อมูลซัลเฟตข้างต้นคุณควรลองการแปลงข้อมูลที่แตกต่างกันและดูว่าสิ่งใดที่ทำให้ฮิสโตแกรมนั้นดูปกติมากขึ้น หากวิธีนี้ใช้ไม่ได้ผลและข้อมูลยังคงดูไม่ปกติอย่างรุนแรงอาจเป็นไปได้ที่จะวิเคราะห์ข้อมูลโดยใช้ anova อย่างไรก็ตามคุณอาจต้องการวิเคราะห์โดยใช้การทดสอบแบบไม่ใช้พารามิเตอร์ การทดสอบสถิติเชิงสถิติเกี่ยวกับการทดสอบแบบอื่นนั้นไม่ใช่แบบอิงพารามิเตอร์เช่นการทดสอบ Kruskal – Wallis แทนการทดสอบทางเดียว anova การทดสอบแบบลงนามของ Wilcoxon แทนการทดสอบแบบจับคู่แบบคู่และ Spearman จัดอันดับความสัมพันธ์แทนการถดถอยเชิงเส้น การทดสอบที่ไม่ใช่พารามิเตอร์เหล่านี้ไม่ได้สมมติว่าข้อมูลเหมาะสมกับการแจกแจงแบบปกติ พวกเขาคิดว่าข้อมูลในกลุ่มต่าง ๆ มีการกระจายตัวเหมือนกันอย่างไรก็ตาม หากกลุ่มที่แตกต่างกันมีการแจกแจงรูปร่างที่แตกต่างกัน (ตัวอย่างเช่นกลุ่มหนึ่งเอียงไปทางซ้ายกลุ่มอื่นเอียงไปทางขวา) การทดสอบที่ไม่ใช่พารามิเตอร์อาจไม่ดีไปกว่าการวัดแบบพารามิเตอร์

อ้างอิง

  1. แก้ว, GV, PD Peckham และ JR Sanders 1972. ผลที่ตามมาของความล้มเหลวในการตอบสนองสมมติฐานการวิเคราะห์ผลกระทบคงที่ของความแปรปรวนและความแปรปรวนร่วม รายได้ Educ Res 42: 237-288
  2. Harwell, MR, EN Rubinstein, WS Hayes, และ CC Olds 1992. การสรุปผลมอนติคาร์โลในการวิจัยเชิงระเบียบวิธี: ผลการวิเคราะห์ ANOVA แบบคงที่หนึ่งและสองปัจจัย J. Educ สถิติ 17: 315-339
  3. Lix, LM, JC Keselman และ HJ Keselman 2539. ผลที่ตามมาของการละเมิดสมมติฐานมาเยือน: การทบทวนเชิงปริมาณของทางเลือกในการวิเคราะห์ทางเดียวของการทดสอบความแปรปรวน F รายได้ Educ Res 66: 579-619

7
ฉันอาจจะแสดงความไม่รู้ของฉันที่นี่ แต่ไม่ใช่สมมติฐานที่อยู่เบื้องหลัง ANOVA ว่าส่วนที่เหลือเป็นเรื่องปกติใช่หรือไม่ ในกรณีนั้นมันไม่สำคัญว่าตัวแปรนั้นจะไม่ปกติหรือไม่ตราบใดที่ส่วนที่เหลือเข้ากับรูปแบบ
richiemorrisroe

5
บางทีคำถามได้รับการแก้ไขแล้ว แต่ฉันไม่เข้าใจจริงๆว่าทำไมคำตอบนี้จึงถูกปรับปรุงและยอมรับ มันเป็นคำแนะนำทั่วไปที่เหมาะสม แต่แทบจะไม่มีอะไรเกี่ยวข้องกับกรณีนี้โดยเฉพาะของ "ความเบ้และความโด่งเป็นผลมาจาก 90% ของอัตราความผิดพลาดหมายถึง 0" ในกรณีนี้คำตอบควรเป็นไม่ไม่และไม่
Erik

8

โดยเฉพาะเกี่ยวกับอัตราความผิดพลาดเป็น DV, ดิกสัน (2008)มาก cogently แสดงให้เห็นว่าการทดสอบสมมติฐาน null ผ่าน ANOVA สามารถก่อให้เกิดทั้งเพิ่มอัตราการเตือนที่ผิดพลาด (เรียกผลกระทบ "อย่างมีนัยสำคัญ" เมื่อพวกเขาไม่ได้) และเพิ่มอัตราการพลาด (หายไปผลกระทบจริง) นอกจากนี้เขายังแสดงให้เห็นว่าการสร้างแบบจำลองเอฟเฟกต์ผสมระบุข้อผิดพลาดการกระจายแบบทวินามเป็นวิธีที่เหมาะสมกว่าในการวิเคราะห์ข้อมูลอัตรา


4

คุณไม่สามารถเชื่อถือ ANOVA ของคุณด้วยความเบ้และ 0 จำนวนมากได้ วิธีที่เหมาะสมกว่าคือการใช้จำนวนข้อผิดพลาดเป็น DV ของคุณ (ซึ่งจะทำให้ DV ของคุณกลายเป็นข้อมูลนับ) และทำการวิเคราะห์ Poisson วิธีนี้จะต้องใช้การวิเคราะห์ผลกระทบแบบผสมและระบุตระกูลการกระจายข้อผิดพลาดเป็นปัวซอง บทความDixon (2008) * ที่กล่าวถึงโดย Mike Lawrence ใช้การวิเคราะห์แบบผสมใน R แต่ด้วยผลลัพธ์ทวินาม ฉันย้ายไปทำ R อย่างสมบูรณ์เพื่อวิเคราะห์การทำซ้ำส่วนใหญ่เพราะตัวแปรผลลัพธ์จำนวนมากของฉันคือทวินาม แพคเกจที่เหมาะสม R lme4คือ


2

Juan เสนอสิ่งต่าง ๆ มากมายแม้ว่าฉันจะสะท้อนผู้อื่นและทำซ้ำเพื่อความแม่นยำที่ดีที่สุดตัวแปรที่ตัวเองสามารถทำได้ไม่ปกติ นอกจากนี้ง่ายและเล็กน้อยคำตอบที่มีโครงสร้าง (ผ่านแผนภูมิการไหลข้อเขียน) ที่มีอยู่ในyellowbrickstats.com


1
ขออภัย แต่ -1 จากฉัน นี่เป็นเรื่องจริงโดยทั่วไป แต่ส่วนที่เหลือจะไม่เกิดขึ้นถ้าเรามีอัตราเงินเฟ้อเป็นศูนย์ ฉันคิดว่าคำตอบไม่ควรครอบคลุมแค่เรื่องทั่วไป แต่เป็นปัญหาเฉพาะ
Erik

1

ผลกระทบจากฝ้าเพดานเป็นปัญหาที่นี่ การทดสอบที่ไม่ใช่พารามิเตอร์เป็นการเดิมพันที่ปลอดภัยที่สุดของคุณแม้ว่า ANOVAs จะแข็งแกร่งต่อการละเมิดกฎเกณฑ์นี้ถ้า n มีขนาดใหญ่ โดยทั่วไปแล้วคนใช้ฮิสโตแกรมเพื่อทดสอบสิ่งนี้ แต่หากปัญหาเกิดขึ้นกับส่วนที่เหลือมันอาจจะสูงกว่านั้น โปรดจำไว้ว่าสิ่งนี้มีผลกับผลลัพธ์ของคุณอย่างไร (ไม่ใช่แค่ทำ) Pallant (2007) อาจกล่าวได้ว่าสิ่งนี้จะเพิ่มโอกาสในการเกิดข้อผิดพลาดประเภทหนึ่งดังนั้นหากคุณลดอัลฟาที่สำคัญของคุณลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.