การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ

ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง

ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot

ป้อนคำอธิบายรูปภาพที่นี่

นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ

เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ )

แก้ไข:

ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้:

ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ

[... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด ขนาดข้อมูลไว้ที่ 5,000

ทำไมฉันจึงทดสอบการกระจายแบบปกติตั้งแต่แรก:

การทดสอบสมมติฐานบางข้อถือว่าการแจกแจงปกติของข้อมูล ฉันต้องการทราบว่าฉันสามารถใช้การทดสอบเหล่านี้ได้หรือไม่

r normal-distribution normality-assumption large-data

— deemel
แหล่งที่มา

ไม่มีการทดสอบจุด; การทดสอบการใช้งานทุกครั้งที่ระดับความสำคัญที่สมเหตุสมผลจะปฏิเสธอย่างชัดเจน อะไรก็ตามที่คุณกำลังอ่านอยู่นั้นทำให้เข้าใจผิด คุณหมายถึงอะไรโดย 'เชื่อถือได้' อย่างแน่นอน 'ข้อ จำกัด ' ของ Shapiro-Wilk คุณหมายถึงอะไร? ฉันเกือบจะเห็นด้วยกับคำสั่งในคำตอบที่คุณเชื่อมโยงกับ ... "ฉันไม่เคยเจอสถานการณ์ที่การทดสอบปกติเป็นสิ่งที่ถูกต้อง" (ฉันเคยเห็นอย่างน้อยหนึ่งครั้งในสถานการณ์ที่ฉันคิดว่ามันเป็น สิ่งที่ถูกต้องที่จะทำ แต่คนส่วนใหญ่มักทำด้วยเหตุผลที่ไม่ดี)

— Glen_b -Reinstate Monica

@Glen_b: บังเอิญฉันพบว่าตัวเองใช้ Shapiro – Wilk ในวันอื่น ๆเพื่อหาหลักฐานของตัวเลขที่เป็นโมฆะซึ่งบางคนในสถาบันการศึกษาได้สันนิษฐานว่าผิดพลาดมากกว่าที่มาจากตัวอย่างคะแนน ฉันสงสัยว่ามันใช้งานได้หรือไม่

— Nick Stauner

@NickStauner การตอบกลับของฉันยาวเกินไปสำหรับความคิดเห็นเดียวและฉันไม่ต้องการจี้คำถามนี้ด้วยความคิดเห็นเกี่ยวกับโพสต์ของคุณ ความเป็นไปได้: เราพูดคุยในการแชทหรือคุณโพสต์คำถามเกี่ยวกับมัน (ซึ่งฉันสามารถโพสต์คำตอบที่ครอบคลุม) หรือเราจะพูดคุยในรูปแบบอื่นเช่นอีเมล

— Glen_b -Reinstate Monica

ฉันไม่เห็นว่าทำไมคุณถึงต้องกังวล มันไม่ธรรมดา - ในกรณีนี้การตรวจสอบกราฟิกปรากฏว่าเพียงพอสำหรับฉัน คุณมีข้อสังเกตมากมายจากสิ่งที่ดูเหมือนว่าเป็นการกระจายแกมม่าที่ดี เพียงไปกับที่ kolmogorov-smirnovถ้าคุณต้อง - ฉันจะแนะนำการกระจายการอ้างอิง

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
ป้อนคำอธิบายรูปภาพที่นี่

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

อย่างที่ฉันมักจะพูดว่า " การทดสอบความเป็นปกติ วิสัย คือ 'ไร้ประโยชน์เป็นหลัก' หรือไม่ " โดยเฉพาะอย่างยิ่งคำตอบของ @ MånsTซึ่งชี้ให้เห็นว่าการวิเคราะห์ที่แตกต่างกันมีความไวที่แตกต่างกัน หากการกระจายของคุณใกล้เคียงกับของฉันอย่างที่เห็นคุณอาจจะมีความเอียงและ kurtosis ("ส่วนเกินที่เกินความจำเป็น" ) มีแนวโน้มที่จะเป็นปัญหาสำหรับการทดสอบจำนวนมาก หากคุณไม่สามารถหาการทดสอบที่มีสมมติฐานที่เหมาะสมกว่านี้หรือไม่มีเลยคุณอาจเปลี่ยนข้อมูลของคุณหรืออย่างน้อยก็ทำการวิเคราะห์ความอ่อนไหวของการวิเคราะห์ที่คุณมีอยู่ในใจ $\approx1.4$ $\approx5.9$ $\approx2.9$

— Nick Stauner
แหล่งที่มา

การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ - อย่างไรและเชื่อถือได้อย่างไร?