ANOVA: การทดสอบสมมติฐานของภาวะปกติสำหรับหลาย ๆ กลุ่มที่มีตัวอย่างไม่กี่ตัวอย่างต่อกลุ่ม


12

สมมติว่าสถานการณ์ต่อไปนี้:

เรามีจำนวนมาก (เช่น 20) กับกลุ่มขนาดเล็ก (เช่น n = 3) ฉันสังเกตเห็นว่าถ้าฉันสร้างค่าจากการกระจายแบบสม่ำเสมอส่วนที่เหลือจะดูปกติประมาณแม้ว่าการกระจายข้อผิดพลาดจะเหมือนกัน รหัส R ต่อไปนี้แสดงให้เห็นถึงพฤติกรรมนี้:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

ถ้าฉันดูตัวอย่างที่เหลือในกลุ่มที่สามเหตุผลของพฤติกรรมชัดเจน:

r1=x1mean(x1,x2,x3)=x1x1+x2+x33=23x1x2x3.

ป้อนคำอธิบายรูปภาพที่นี่

เนื่องจากเป็นผลรวมของตัวแปรสุ่มที่มีค่าเบี่ยงเบนมาตรฐานไม่ต่างกันประมาณการแจกแจงการแจกแจงจึงค่อนข้างใกล้เคียงกับการแจกแจงปกติมากกว่าคำศัพท์แต่ละคำr1

ตอนนี้สมมติว่าฉันมีสถานการณ์เดียวกันกับข้อมูลจริงแทนที่จะเป็นข้อมูลจำลอง ฉันต้องการประเมินว่าสมมติฐานของ ANOVA เกี่ยวกับความเป็นมาตรฐานอยู่หรือไม่ ขั้นตอนที่แนะนำส่วนใหญ่แนะนำให้ตรวจสอบภาพตกค้าง (เช่น QQ-Plot) หรือการทดสอบความเป็นปกติของสิ่งตกค้าง ตามตัวอย่างของฉันด้านบนนี้ไม่เหมาะสำหรับขนาดกลุ่มเล็ก

มีทางเลือกที่ดีกว่านี้หรือไม่เมื่อฉันมีขนาดเล็กหลายกลุ่ม?


1
ด้วยเหตุผลหลายประการปรากฏว่านี่ไม่ใช่ปัญหา ขั้นแรกเศษที่เหลือของคุณจะมีลักษณะเหมือนกัน: ดูฮิสโตแกรมสำหรับกลุ่มจำนวนมากเพื่อดูสิ่งนี้ ประการที่สองกฎเกณฑ์ของส่วนที่เหลือมีความสำคัญเล็กน้อยสำหรับการวิเคราะห์ส่วนใหญ่ สิ่งที่สำคัญคือค่าเฉลี่ยตัวอย่างของการแจกแจงตัวอย่าง อะไรคือลักษณะพิเศษของใบสมัครของคุณทำให้คุณคิดว่ามีปัญหาจริง
whuber

1
ก) ส่วนที่เหลือของฉันจะไม่เหมือนกัน ฉันได้ทดสอบสิ่งนี้สำหรับกลุ่มหลายกลุ่ม (ไม่ใช่ตัวอย่างต่อกลุ่ม) ตั้งแต่ 20 ถึง 20,000 ฉันได้แนบตัวอย่างกับคำถาม มันดูเหมือนบางสิ่งบางอย่างระหว่างเครื่องแบบและปกติมีแนวโน้มที่ชัดเจนเป็นปกติ b) ฉันรู้ว่ามันเป็นเรื่องปกติของการกระจายตัวตัวอย่าง นี่คือประเด็นทั้งหมดของคำถามเนื่องจากส่วนที่เหลือจะดูปกติ แต่การกระจายตัวตัวอย่างไม่ได้ ดังนั้นฉันไม่สามารถใช้ส่วนที่เหลือเพื่อทดสอบคุณสมบัติของการกระจายตัวตัวอย่าง
Erik

2
ถูกต้อง. แต่คุณสนใจที่จะเผยแพร่ข้อผิดพลาดหรือสนใจที่จะทำ ANOVA หรือไม่? (ฉันไม่ได้พยายามที่จะบอกเป็นนัยถึงคำถามที่ควรเพิกเฉย - มันเป็นปัญหาที่น่าสนใจที่คุณยกมา - แต่ฉันแค่สงสัยว่าคุณต้องการคำตอบจริงๆเพื่อทำการวิเคราะห์ข้อมูลของคุณหรือไม่)
whuber

3
แต่คุณสามารถใช้แบบจำลองเดียวกันเพื่อตรวจสอบความทนทานของ ANOVA ในกรณีของคุณ!
kjetil b halvorsen

4
หนึ่งข้อคิดเห็นที่เกี่ยวข้องเล็กน้อย แต่มีความเกี่ยวข้อง: โดยทั่วไปแล้วการทดสอบปกติ (หรือสมมุติฐานรูปแบบอื่น) ก่อนที่จะทำการทดสอบสมมติฐานนำเสนอ (อย่างน้อย) ปัญหาสามข้อ: 1) ถ้าคุณทำคุณจะต้องทำการทดสอบหลายรายการ 2) การปฏิเสธสมมติฐานทางเลือกเช่น "ไม่ปกติ" ไม่ได้หมายความว่าคุณสามารถสรุปกฎเกณฑ์ได้ 3) การทดสอบสำหรับสมมติฐานของโมเดลมีสมมติฐานโมเดลของตัวเองดังนั้นคุณจะหยุดที่ไหน
Martha

คำตอบ:


1

ทำงานกับคำตอบนี้ไม่ได้ทำอย่างสมบูรณ์ ฉันมีความเข้าใจเกี่ยวกับเรื่องนี้ แต่ใช้เวลาพอสมควรในการอธิบาย สำหรับสิ่งนี้ขอให้เราพิจารณาว่าค่าเบี่ยงเบนมาตรฐานนั้นมีอคติสำหรับคนจำนวนน้อย เหตุผลนี้คือถ้าเราใช้ตัวเลขสองตัวเรากำหนดค่าเฉลี่ยตัวอย่างโดยพลการให้เป็นซึ่งค่าเฉลี่ยประชากรอาจเป็นที่ใดก็ได้บน ช่วงเวลาระหว่างหรืออาจเป็นไปได้ว่าหรือข ซึ่งหมายความว่าในวันที่ค่าเฉลี่ยของ\ดังนั้นเมื่อว่าอคตินี้จะเล็กa<ba+b2σ(a,b)σ<aσ>bSD<σn>100. สำหรับ SD แบบยาวสำหรับตัวอย่างจำนวนน้อยแต่ละชุดการคำนวณ SD จะแม่นยำยิ่งขึ้นและเห็นได้ชัดว่าไม่ถูกต้องมากขึ้น

ตอนนี้แทนที่จะปล่อยให้มือของเราหงุดหงิดเราสามารถใช้การแก้ไขจำนวนเล็กน้อยสำหรับ SD ของเราภายใต้สภาวะปกติ (ฮ่า! มีทางออกสำหรับความทุกข์ยากของเรา)

E[μ]SD(n)μ(n)=2n1Γ(n2)Γ(n12)=114n732n219128n3+O(n4)ดูE[μ]

สำหรับนี้เป็นปี่}} ซึ่งหมายความว่าเราจะต้องแบ่ง SD ของเราโดยมากที่จะประมาณการ\Γ ( 3n=3σΓ(32)=π20.8862269255σ

ในกรณีที่คุณนำเสนอคุณมีสิ่งอื่น ๆ อีกมากมายเกิดขึ้นเช่นกัน เมื่อมันเกิดขึ้นการวัดที่ตั้งที่ดีที่สุดของการกระจายตัวแบบสม่ำเสมอนั้นไม่ได้เป็นค่าเฉลี่ย แม้ว่าทั้งสองตัวอย่างค่าเฉลี่ยและค่ามัธยฐานของกลุ่มตัวอย่างที่มีการประมาณค่าที่เป็นกลางจากจุดกึ่งกลางที่ไม่เป็นเป็นที่มีประสิทธิภาพตัวอย่างช่วงกลางคือค่าเฉลี่ยเลขคณิตของสูงสุดตัวอย่างและต่ำสุดของกลุ่มตัวอย่างซึ่งเป็นขั้นต่ำแปรปรวนเป็นกลางประมาณการUMVU ตัวประมาณค่าของจุดกึ่งกลาง (และการประมาณความน่าจะเป็นสูงสุด)

ตอนนี้ถึงเนื้อของเรื่อง หากคุณใช้ค่าเฉลี่ยสุดขีดค่าความแปรปรวนของการวัดตำแหน่งจะเล็กลงหากว่าข้อมูลของคุณมีการกระจายอย่างสม่ำเสมอ มันอาจจะกระจายได้ตามปกติเพราะหางค่ามากเดียวอาจเป็นปกติ อย่างไรก็ตามมีเพียง 3 ตัวอย่างเท่านั้นส่วนเบี่ยงเบนมาตรฐานจะต้องแก้ไข

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.