การกระจายข้อมูลของคุณไม่จำเป็นต้องเป็นปกติมันคือการกระจายตัวอย่างซึ่งจะต้องใกล้เคียงปกติ ถ้าขนาดตัวอย่างของคุณก็พอใหญ่แล้วการกระจายตัวอย่างของวิธีการจัดจำหน่ายจากกุ๊บควรจะเป็นเกือบปกติเนื่องจากทฤษฎีขีด จำกัด กลาง
ดังนั้นหมายความว่าคุณควรใช้ t-test กับข้อมูลของคุณได้อย่างปลอดภัย
ตัวอย่าง
ลองพิจารณาตัวอย่างนี้: สมมติว่าเรามีประชากรที่มีการแจกแจงแบบ Lognormalด้วย mu = 0 และ sd = 0.5 (มันดูคล้ายกับรถม้าสี่ล้อ)
ดังนั้นเราสุ่มตัวอย่าง 30 ครั้ง 5,000 ครั้งจากการแจกแจงนี้ทุกครั้งที่คำนวณค่าเฉลี่ยของตัวอย่าง
และนี่คือสิ่งที่เราได้รับ
ดูปกติมากใช่มั้ย ถ้าเราเพิ่มขนาดตัวอย่างมันชัดเจนยิ่งขึ้น
รหัส R
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))