ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง


52

หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ:

  • ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น
  • Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ
  • ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ...

จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่

มีคำถามหลายข้อปรากฏขึ้น:

  • กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด)))
  • ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง?
  • หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

คุณสามารถเพิกเฉยต่อแหล่งอื่น ๆ ที่บอกว่าถ้าพวกเขาอ้างว่าข้อมูลดิบนั้นจะต้องมีการเผยแพร่ตามปกติ และใครบอกว่า "เรา" กำลังตรวจสอบค่าดิบด้วยฮิสโทแกรมเท่านั้น คุณอยู่ในหนึ่งในคลาส Six Sigma หรือไม่ ???
DWIN

1
@Andy W: ฉันเพิ่งเพิ่มลิงค์ไปยังสิ่งที่ดูเหมือนจะเป็นส่วนที่เกี่ยวข้องของบทความ Wikipedia ใน ANOVA
onestop

@DWin: blog.markanthonylawson.com/?p=296 (ขออภัยปิดหัวข้ออย่างสมบูรณ์แต่ไม่สามารถต้านทานได้)
onestop

@onestop ขอบคุณ ฉันขอลิงค์เท่านั้นเพราะฉันขี้เกียจและไม่ต้องการค้นหา ANOVA ในวิกิพีเดียด้วยตัวเองไม่ใช่เพราะมันเป็นสิ่งจำเป็นสำหรับคำถาม
Andy W

คำถามที่เกี่ยวข้องที่นี่: what-if-เหลือจะถูก-ปกติกระจาย แต่-Y-คือไม่
gung - Reinstate Monica

คำตอบ:


35

สมมติว่านี่เป็นโมเดลเอฟเฟกต์คงที่ (คำแนะนำไม่ได้เปลี่ยนแปลงจริง ๆ สำหรับโมเดลเอฟเฟ็กต์แบบสุ่ม แต่มันก็ซับซ้อนขึ้นเล็กน้อย)

  1. ไม่มีภาวะปกติและการกระจายปกติของที่เหลือจะไม่เหมือนกัน สมมติว่าคุณวัดผลผลิตจากพืชที่มีและไม่มีการใส่ปุ๋ย ในแปลงที่ไม่มีปุ๋ยผลผลิตอยู่ระหว่าง 70 ถึง 130 ในสองแปลงที่มีปุ๋ยผลผลิตอยู่ในช่วง 470 ถึง 530 การกระจายของผลลัพธ์ไม่ปกติอย่างมาก: มีการรวมกลุ่มที่สองแห่งที่เกี่ยวข้องกับการใส่ปุ๋ย สมมติว่าผลผลิตเฉลี่ยต่อไปคือ 100 และ 500 ตามลำดับ จากนั้นทั้งหมดที่เหลืออยู่ในช่วงตั้งแต่ -30 ถึง +30 พวกเขาอาจจะ (หรืออาจจะไม่) ได้รับการกระจายตามปกติ แต่เห็นได้ชัดว่านี่คือการกระจายที่แตกต่างอย่างสิ้นเชิง

  2. การกระจายตัวของสารตกค้างนั้นสำคัญเพราะมันสะท้อนส่วนที่สุ่มของแบบจำลอง โปรดทราบด้วยว่าค่า p จะคำนวณจากสถิติ F (หรือ t) และค่าเหล่านั้นขึ้นอยู่กับส่วนที่เหลือไม่ใช่ค่าดั้งเดิม

  3. หากมีผลกระทบอย่างมีนัยสำคัญและมีความสำคัญในข้อมูล (เช่นในตัวอย่างนี้) แล้วคุณอาจจะทำให้เป็น "หลุมฝังศพ" ความผิดพลาด คุณโชคดีได้ทำการตัดสินใจที่ถูกต้องนั่นคือโดยการดูข้อมูลดิบคุณจะเห็นส่วนผสมของการแจกแจงและสิ่งนี้อาจดูเป็นปกติ (หรือไม่) ประเด็นก็คือสิ่งที่คุณกำลังดูไม่เกี่ยวข้อง

ส่วนที่เหลือของ ANOVA ไม่จำเป็นต้องอยู่ใกล้เคียงปกติเพื่อให้เข้ากับโมเดล อย่างไรก็ตามค่าใกล้เคียงปกติของสารตกค้างเป็นสิ่งจำเป็นสำหรับค่า p ที่คำนวณจากการแจกแจงแบบ F เพื่อให้มีความหมาย


6
ฉันคิดว่ามีประเด็นสำคัญที่ต้องเพิ่ม: ใน ANOVA ความปกติในแต่ละกลุ่ม (ไม่รวม) เท่ากับความปกติของส่วนที่เหลือ
Aniko

2
@Aniko คุณช่วยอธิบายความหมายของคำว่า "เทียบเท่า" ในความคิดเห็นของคุณได้ไหม? มันเกือบจะซ้ำซากที่ภาวะปกติภายในกลุ่มนั้นเหมือนกันกับภาวะปกติของกลุ่มที่เหลือ แต่มันเป็นเรื่องผิดปกติที่กฎเกณฑ์แยกกันภายในแต่ละกลุ่มแสดงถึงภาวะปกติ (หรือโดยนัย) ของส่วนที่เหลือ
whuber

7
ฉันหมายถึงความรู้สึกที่เคร่งเครียดจริงๆ: ถ้ากลุ่มเป็นเรื่องปกติแล้วส่วนที่เหลือเป็นเรื่องปกติ ย้อนกลับเป็นจริงเฉพาะเมื่อ homoscedascity ถูกเพิ่ม (เช่นเดียวกับใน ANOVA) ฉันไม่ได้ตั้งใจที่จะสนับสนุนการตรวจสอบกลุ่มแทนที่จะเหลือ แต่ฉันคิดว่านี่เป็นเหตุผลพื้นฐานสำหรับการใช้ถ้อยคำที่แตกต่างกันของสมมติฐาน
Aniko

2
ฉันสังเกตเห็นว่าคนที่ทำ ANOVA มักจะสนใจในการคำนวณค่า p และด้วยเหตุนี้ความเป็นปกติของเศษเหลือจึงมีความสำคัญสำหรับพวกเขา มีเหตุผลทั่วไปใดบ้างที่จะเหมาะสมกับโมเดล ANOVA ถ้าเราไม่สนใจคำนวณค่า p จากการแจกแจงแบบ F ขออภัยหากคำถามนี้กว้างเกินไปสำหรับความคิดเห็น
user1205901

3
@ user1205901 นั่นเป็นจุดที่ดีมาก การใช้งานทั่วไปของ ANOVA ที่ไม่ต้องอาศัยการทดสอบ F คือ (1) มันเป็นวิธีที่สะดวกในการรับการประเมินผลกระทบและ (2) มันเป็นส่วนหนึ่งและพัสดุของส่วนประกอบของการคำนวณผลต่าง
whuber

8

ANOVA แบบคลาสสิกทางเดียวแบบมาตรฐานสามารถดูได้ว่าเป็นส่วนขยายของ "การทดสอบแบบ T-test 2 ตัวอย่าง" แบบดั้งเดิมกับการ "การทดสอบตัวอย่างแบบ n-sample" สิ่งนี้สามารถเห็นได้จากการเปรียบเทียบ ANOVA แบบทางเดียวกับสองกลุ่มกับการทดสอบ T-test แบบคลาสสิก 2 ตัวอย่าง

ฉันคิดว่าคุณกำลังสับสนอยู่ที่ไหน (ภายใต้สมมติฐานของตัวแบบ) ส่วนที่เหลือและข้อมูลดิบนั้นจะถูกกระจายทั้งสองแบบ อย่างไรก็ตามข้อมูลดิบประกอบด้วยการแจกแจงแบบปกติที่มีวิธีการที่แตกต่างกัน (ยกเว้นว่าเอฟเฟกต์ทั้งหมดเหมือนกันทั้งหมด) แต่ความแปรปรวนเดียวกัน เหลือในมืออื่น ๆ มีการแจกแจงแบบปกติเดียวกัน สิ่งนี้มาจากข้อสันนิษฐานที่สามของความเป็นเนื้อเดียวกัน

นี่เป็นเพราะการแจกแจงแบบปกตินั้นถูกแยกออกเป็นองค์ประกอบค่าเฉลี่ยและความแปรปรวน ถ้ามีการแจกแจงแบบปกติที่มีค่าเฉลี่ยμ jและความแปรปรวนσ 2สามารถเขียนได้เช่นY i j = μ j + σ ϵ i jโดยที่ϵ i jมีการแจกแจงแบบปกติมาตรฐานYiJμJσ2YผมJ=μJ+σεผมJεผมJ

εผมJ

YผมJ


1
+1 สำหรับการชี้ให้เห็น (ในย่อหน้าสุดท้าย) ข้อสันนิษฐานของความเป็นหนึ่งเดียว
whuber

มันหมายความว่าหากเราให้ กลุ่มn ที่ขึ้นต่อกันเพื่อเปรียบเทียบเราจำเป็นต้องตรวจสอบแยกของพวกเขาที่เหลือ (ส่งผลให้เกิดกลุ่มn ที่เหลือ)?
สแตน

5

พีnJF=SS/dSSW/dW

SS=ΣJ=1พีnJ(M-MJ)2

SSW=ΣJ=1พีΣผม=1nJ(YผมJ-MJ)2

ตามด้วยการแจกแจง Fถ้า S S bFFSS/dSSW/dWχ2ddWSSSSW0M-MJYผมJ-MJ

Yผม(J)-MJY=μJ+ε=μ+αJ+εYผม(J)-MY=μ+εM-MJ

H0MYผม(J)-MJM-MJ


2
โดยมีสมมติฐานว่าสิ่งเหล่านี้ SSχ2MJ=MJYผมJ-MJMJ-M

@onestop แก้ไขเพื่อสะท้อนความกระจ่างของคุณขอบคุณ!
caracal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.