การแจกแจงแบบมีแนวโน้มที่จะกระจาย (gaussian) เมื่อมีขนาดใหญ่ (อันที่จริง, เมื่อ , พวกมันเกือบจะเหมือนกัน, ดูรูปภาพที่ได้รับจาก @onestop) ในกรณีของคุณฉันจะบอกว่ามีขนาดใหญ่มากเพื่อให้คุณสามารถใช้การทดสอบได้ เนื่องจากขนาดตัวอย่างความแตกต่างเล็ก ๆ น้อย ๆ จะถูกประกาศอย่างมีนัยสำคัญ ดังนั้นจึงควรถามตัวคุณเองว่าการทดสอบเหล่านี้ (พร้อมชุดข้อมูลแบบเต็ม) น่าสนใจหรือไม่z n n > 30 n ztznn>30nz
เพื่อให้แน่ใจว่าชุดข้อมูลของคุณมีตัวแปร 25 ตัวคุณทำการทดสอบ 25 ชุดใช่หรือไม่ หากเป็นกรณีนี้คุณอาจต้องแก้ไขหลายรายการเพื่อไม่ให้อัตราความผิดพลาดประเภท I เพิ่มขึ้น (ดูหัวข้อที่เกี่ยวข้องในเว็บไซต์นี้)
BTW ซอฟต์แวร์ R จะให้ค่า p ที่คุณต้องการโดยไม่ต้องพึ่งพา Tables:
> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)
Two Sample t-test
data: x1 and x2
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1024183 -0.0822190
sample estimates:
mean of x mean of y
0.007137404 0.099456039