ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง
ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot
นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ
เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ )
แก้ไข:
ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้:
ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ
[... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด ขนาดข้อมูลไว้ที่ 5,000
ทำไมฉันจึงทดสอบการกระจายแบบปกติตั้งแต่แรก:
การทดสอบสมมติฐานบางข้อถือว่าการแจกแจงปกติของข้อมูล ฉันต้องการทราบว่าฉันสามารถใช้การทดสอบเหล่านี้ได้หรือไม่