การวิเคราะห์ผลการทดสอบ A / B ซึ่งไม่ได้มีการแจกแจงแบบปกติโดยใช้ t-test อิสระ


14

ฉันมีชุดผลลัพธ์จากการทดสอบ A / B (กลุ่มควบคุมหนึ่งกลุ่มหนึ่งกลุ่มคุณลักษณะ) ซึ่งไม่พอดีกับการแจกแจงแบบปกติ ในความเป็นจริงการกระจายมีความคล้ายคลึงกับการกระจายรถม้า

ฉันเชื่อว่าการทดสอบแบบอิสระนั้นต้องการให้กลุ่มตัวอย่างกระจายอย่างน้อยประมาณปกติซึ่งทำให้ฉันไม่ได้ใช้การทดสอบแบบทีเป็นวิธีการทดสอบอย่างมีนัยสำคัญ

แต่คำถามของฉันคือ: ณ จุดใดที่หนึ่งสามารถพูดได้ว่าการทดสอบ t- ไม่ใช่วิธีการทดสอบที่สำคัญ?

หรือใส่อีกวิธีหนึ่งจะมีคุณสมบัติอย่างไรความน่าเชื่อถือของค่า p ของการทดสอบ t ได้รับเพียงชุดข้อมูล?

คำตอบ:


8

การกระจายข้อมูลของคุณไม่จำเป็นต้องเป็นปกติมันคือการกระจายตัวอย่างซึ่งจะต้องใกล้เคียงปกติ ถ้าขนาดตัวอย่างของคุณก็พอใหญ่แล้วการกระจายตัวอย่างของวิธีการจัดจำหน่ายจากกุ๊บควรจะเป็นเกือบปกติเนื่องจากทฤษฎีขีด จำกัด กลาง

ดังนั้นหมายความว่าคุณควรใช้ t-test กับข้อมูลของคุณได้อย่างปลอดภัย

ตัวอย่าง

ลองพิจารณาตัวอย่างนี้: สมมติว่าเรามีประชากรที่มีการแจกแจงแบบ Lognormalด้วย mu = 0 และ sd = 0.5 (มันดูคล้ายกับรถม้าสี่ล้อ)

ความหนาแน่น lognormal

ดังนั้นเราสุ่มตัวอย่าง 30 ครั้ง 5,000 ครั้งจากการแจกแจงนี้ทุกครั้งที่คำนวณค่าเฉลี่ยของตัวอย่าง

และนี่คือสิ่งที่เราได้รับ

การกระจายตัวตัวอย่าง

ดูปกติมากใช่มั้ย ถ้าเราเพิ่มขนาดตัวอย่างมันชัดเจนยิ่งขึ้น

การกระจายตัวตัวอย่าง

รหัส R

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

สวัสดีอเล็กซี่! ดูเหมือนว่าคุณมีความเชี่ยวชาญอยู่ใน R ดังนั้นฉันสงสัยว่าถ้าคุณมีคำแนะนำใด ๆ ในการแก้ปัญหาผมติดอยู่กับ: stackoverflow.com/questions/25101444/... นอกเหนือจากนั้นฉันยินดีที่จะเชื่อมต่อกับคุณ (ดู aleksandrblekh.com สำหรับโปรไฟล์ของฉันบนเครือข่ายสังคมออนไลน์) เนื่องจากดูเหมือนว่าเรามีความสนใจร่วมกัน (รวมถึงภาษาพื้นเมือง :-)
Aleksandr Blekh

นี่เป็นคำอธิบายที่ดีมากและจริงๆแล้วเป็นวิธีการที่ฉันใช้ ฉันชอบคิดว่าวิธีนี้เป็นการแยกตัวอย่างทั้งหมดออกเป็นตัวอย่างย่อยที่เล็กกว่าและใช้วิธีเฉลี่ย (เฉลี่ยกับ CLT) ของแต่ละตัวอย่างย่อยเป็นการกระจายของชุดข้อมูล ขอบคุณสำหรับคำตอบ!
teebszet

1

โดยพื้นฐานแล้วการทดสอบแบบอิสระหรือการทดสอบตัวอย่าง 2 ครั้งใช้เพื่อตรวจสอบว่าค่าเฉลี่ยของตัวอย่างทั้งสองนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่ หรือกล่าวอีกนัยหนึ่งหากมีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยของตัวอย่างสองตัวอย่าง

ทีนี้ค่าเฉลี่ยของ 2 ตัวอย่างนั้นเป็นสองสถิติซึ่งตาม CLT มีการแจกแจงแบบปกติถ้ามีตัวอย่างเพียงพอ โปรดทราบว่า CLT ใช้งานได้ไม่ว่าจะมีการกระจายซึ่งสร้างสถิติค่าเฉลี่ย

โดยทั่วไปสามารถใช้การทดสอบ z ได้ แต่หากมีการประมาณผลต่างจากตัวอย่าง (เพราะไม่ทราบ) จะมีการแนะนำความไม่แน่นอนเพิ่มเติมซึ่งรวมอยู่ในการแจกแจงแบบ t นั่นเป็นสาเหตุที่การทดสอบ t-test 2 ตัวอย่างใช้ที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.