1
การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ - อย่างไรและเชื่อถือได้อย่างไร?
ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ ) แก้ไข: ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้: ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ [... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด …