นานมาแล้วฉันได้เรียนรู้ว่าการแจกแจงแบบปกติจำเป็นต้องใช้การทดสอบตัวอย่างสองชุด วันนี้เพื่อนร่วมงานคนหนึ่งบอกฉันว่าเธอเรียนรู้ว่าสำหรับการแจกแจงปกติ N> 50 นั้นไม่จำเป็น มันเป็นเรื่องจริงเหรอ?
ถ้าเป็นจริงก็เพราะทฤษฎีบทขีด จำกัด กลาง?
นานมาแล้วฉันได้เรียนรู้ว่าการแจกแจงแบบปกติจำเป็นต้องใช้การทดสอบตัวอย่างสองชุด วันนี้เพื่อนร่วมงานคนหนึ่งบอกฉันว่าเธอเรียนรู้ว่าสำหรับการแจกแจงปกติ N> 50 นั้นไม่จำเป็น มันเป็นเรื่องจริงเหรอ?
ถ้าเป็นจริงก็เพราะทฤษฎีบทขีด จำกัด กลาง?
คำตอบ:
สมมติฐานปกติของ t-test
พิจารณาประชากรขนาดใหญ่ที่คุณสามารถนำตัวอย่างที่แตกต่างกันหลายขนาดที่เฉพาะเจาะจง (ในการศึกษาโดยเฉพาะคุณมักรวบรวมตัวอย่างเหล่านี้เพียงหนึ่ง)
t-test สันนิษฐานว่าวิธีการของกลุ่มตัวอย่างที่แตกต่างกันมีการกระจายตามปกติ ไม่ได้สมมติว่าประชากรกระจายตัวตามปกติ
โดยทฤษฎีบทขีด จำกัด กลางหมายถึงกลุ่มตัวอย่างจากประชากรที่มีความแปรปรวน จำกัด วิธีการแจกแจงแบบปกติโดยไม่คำนึงถึงการกระจายตัวของประชากร กฎของหัวแม่มือบอกว่าโดยทั่วไปค่าเฉลี่ยตัวอย่างจะกระจายตราบเท่าที่ขนาดตัวอย่างมีอย่างน้อย 20 หรือ 30 เพื่อให้การทดสอบ t ใช้งานได้กับตัวอย่างที่มีขนาดเล็กลงการกระจายประชากรจะต้องเป็นปกติประมาณ
t-test ไม่ถูกต้องสำหรับตัวอย่างขนาดเล็กจากการแจกแจงแบบไม่ปกติ แต่ใช้ได้สำหรับตัวอย่างขนาดใหญ่จากการแจกแจงแบบไม่ปกติ
ตัวอย่างขนาดเล็กจากการแจกแจงแบบไม่ปกติ
ดังที่ Michael บันทึกไว้ด้านล่างขนาดตัวอย่างที่จำเป็นสำหรับการแจกแจงค่าเฉลี่ยของค่าเฉลี่ยขึ้นอยู่กับระดับความไม่เป็นมาตรฐานของประชากร สำหรับการแจกแจงปกติโดยประมาณคุณไม่จำเป็นต้องมีกลุ่มตัวอย่างขนาดใหญ่เท่ากับการแจกแจงแบบไม่ธรรมดามาก
นี่คือแบบจำลองบางส่วนที่คุณสามารถเรียกใช้ใน R เพื่อรับความรู้สึกนี้ ก่อนอื่นนี่คือการกระจายตัวของประชากร
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
ถัดไปเป็นการจำลองกลุ่มตัวอย่างจากการแจกแจงของประชากร ในแต่ละบรรทัดเหล่านี้ "10" คือขนาดตัวอย่าง "100" คือจำนวนตัวอย่างและฟังก์ชันหลังจากนั้นระบุการกระจายของประชากร พวกมันสร้างฮิสโตแกรมของค่าเฉลี่ยตัวอย่าง
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
เพื่อให้การทดสอบ t ใช้งานได้ฮิสโทแกรมเหล่านี้ควรเป็นปกติ
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
ประโยชน์ของการทดสอบ t
ฉันต้องทราบว่าความรู้ทั้งหมดที่ฉันมอบให้นั้นค่อนข้างล้าสมัย ตอนนี้เรามีคอมพิวเตอร์เราทำได้ดีกว่าการทดสอบ t ในฐานะที่เป็นบันทึกของ Frank คุณอาจต้องการใช้การทดสอบ Wilcoxonทุกที่ที่คุณได้รับการสอนให้ใช้การทดสอบ t
ทฤษฎีขีด จำกัด กลางมีประโยชน์น้อยกว่าที่คิดในบริบทนี้ ครั้งแรกเมื่อมีคนชี้ให้เห็นแล้วไม่มีใครรู้ว่าขนาดตัวอย่างปัจจุบันเป็น "ใหญ่พอ" ประการที่สอง CLT นั้นเกี่ยวกับการบรรลุข้อผิดพลาดประเภท I ที่ต้องการมากกว่าข้อผิดพลาดเกี่ยวกับ type II กล่าวอีกนัยหนึ่งการทดสอบ t- สามารถ uncompetitive พลัง - ฉลาด นั่นเป็นเหตุผลที่การทดสอบของวิลคอกซันเป็นที่นิยมมาก หากความเป็นปรกติมีค่า 95% จะมีประสิทธิภาพเท่ากับการทดสอบ t หากความปกติไม่ถือมันจะมีประสิทธิภาพมากกว่าการทดสอบ t
ดูคำตอบก่อนหน้าของฉันกับคำถามเกี่ยวกับความทนทานของ t-test
โดยเฉพาะอย่างยิ่งผมขอแนะนำให้เล่นรอบกับแอปเพล็ onlinestatsbook
ภาพด้านล่างเป็นไปตามสถานการณ์ต่อไปนี้:
การจำลองที่ได้แสดงให้เห็นว่าแทนที่จะได้รับข้อผิดพลาด 5% Type I ฉันได้รับข้อผิดพลาด 4.5% Type I เท่านั้น
ไม่ว่าคุณจะพิจารณาความแข็งแกร่งนี้หรือไม่นั้นขึ้นอยู่กับมุมมองของคุณ
จากประสบการณ์ของฉันด้วยการทดสอบ t-test เพียงครั้งเดียวฉันพบว่าการแจกแจงความเบ้สำคัญกว่าความโด่ง สำหรับการแจกแจงแบบไม่เอียง แต่มีไขมันเทลด์ (ที่ความเป็นอิสระ 5 องศา, การแจกแจงแบบ Tukey h ด้วย , ฯลฯ ) ฉันพบว่า 40 ตัวอย่างมีเพียงพอที่จะได้รับอัตราเชิงประจักษ์ประเภทหนึ่งใกล้กับค่าเล็กน้อย . อย่างไรก็ตามเมื่อการกระจายเบ้มากคุณอาจต้องมีตัวอย่างอีกมากมาย
ตัวอย่างเช่นสมมติว่าคุณกำลังเล่นลอตเตอรี ด้วยความน่าจะเป็นคุณจะได้รับ 100,000 ดอลลาร์และด้วยความน่าจะเป็นคุณจะสูญเสียหนึ่งดอลลาร์ หากคุณทำการทดสอบ t สำหรับค่า Null ที่ค่าเฉลี่ยผลตอบแทนเป็นศูนย์จากตัวอย่างของการดึงหนึ่งพันครั้งของกระบวนการนี้ฉันไม่คิดว่าคุณจะบรรลุอัตราที่ระบุประเภท I
แก้ไข : duh, ต่อ @ whuber ของการจับในความคิดเห็นตัวอย่างที่ฉันให้ไม่ได้มีค่าเฉลี่ยเป็นศูนย์ดังนั้นการทดสอบสำหรับค่าเฉลี่ยศูนย์จะไม่มีอะไรเกี่ยวข้องกับอัตราการพิมพ์ของฉัน
เนื่องจากตัวอย่างลอตเตอรีมักจะมีค่าเบี่ยงเบนมาตรฐานตัวอย่างเป็นศูนย์จึงทำให้การทดสอบ t ดังนั้นแทนที่จะผมให้เป็นตัวอย่างที่ใช้รหัส Goerg ของแลมเบิร์กว้าง x เสียนกระจาย การกระจายที่ฉันใช้ตรงนี้มีความเบ้ประมาณ 1355
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
รหัสนี้จะให้อัตราการปฏิเสธเชิงประจักษ์ที่ระดับ 0.05 เล็กน้อยสำหรับขนาดตัวอย่างที่แตกต่างกัน สำหรับตัวอย่างขนาด 50 อัตราการทดลองคือ 0.40 (!); สำหรับขนาดตัวอย่าง 250, 0.29; สำหรับขนาดตัวอย่าง 1,000, 0.21; สำหรับขนาดตัวอย่าง 2000, 0.18 เห็นได้ชัดว่า t-test หนึ่งตัวอย่างทนทุกข์จากความเบ้
ทฤษฎีบทขีด จำกัด กลางกำหนด (ภายใต้เงื่อนไขที่กำหนด) ว่าตัวเศษของสถิติ t-asymptotically ปกติ สถิติสถิติมีตัวส่วน ในการมีการแจกแจงแบบ t คุณต้องมีตัวส่วนเป็นอิสระและสแควร์รูทของ a-chi-square-on-its-df
และเรารู้ว่ามันจะไม่เป็นอิสระ (นั่นเป็นลักษณะปกติ!)
ทฤษฎีบทของ Slutsky รวมกับ CLT จะทำให้คุณรู้ว่าสถิติ t-asymptotically เป็นปกติ (แต่ไม่จำเป็นในอัตราที่มีประโยชน์มาก)
ทฤษฎีบทอะไรที่จะพิสูจน์ได้ว่าสถิติเชิงสถิตินั้นมีค่าประมาณ t-distribution เมื่อไม่มีกฎเกณฑ์อะไรและมันมาเร็วแค่ไหน? (แน่นอนในที่สุด t- จะเข้าใกล้ปกติเช่นกัน แต่เราสมมติว่าการประมาณการประมาณอื่นจะดีกว่าการใช้การประมาณปกติ ... )
แต่สำคัญกว่าโดยอ้างว่าระดับความทนทานของ (ที่ขนาดตัวอย่างขนาดใหญ่) เป็นผลกระทบต่อของอำนาจ โปรดทราบว่าประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติคของ t-test เทียบกับ Wilcoxon-Mann-Whitney (ตัวอย่าง) อาจเป็น 0 (เช่นขนาดตัวอย่างมีขนาดใหญ่ในขณะที่ขนาดเอฟเฟกต์ที่คุณต้องการรับการหดตัว t เพื่อให้มีพลังงานเช่นเดียวกับทางเลือกที่ชัดเจน)
ดังนั้นในขณะที่การทดสอบการทดสอบอาจสิ้นสุดลงด้วยการแจกแจงโมฆะที่ดูดีปกติในหลายกรณีถ้ามีขนาดใหญ่พอประสิทธิภาพการทำงานภายใต้ค่า null นั้นไม่ได้เป็นสิ่งที่ผู้คนสนใจมากที่สุด - คือประสิทธิภาพภายใต้ทางเลือก - และ มันอาจจะไม่ดีนักถ้าคุณสนใจที่จะปฏิเสธโมฆะในกรณีที่เอฟเฟกต์นั้นไม่ง่ายนัก
ใช่ทฤษฎีขีด จำกัด กลางบอกเราว่านี่เป็นความจริง ตราบใดที่คุณหลีกเลี่ยงลักษณะที่มีน้ำหนักมากเป็นพิเศษการไม่อยู่ในเกณฑ์ปกติจะไม่มีปัญหาในกลุ่มตัวอย่างที่มีขนาดปานกลางถึงใหญ่
นี่คือกระดาษตรวจสอบที่เป็นประโยชน์
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
การทดสอบของวิลคอกซัน (ที่คนอื่นพูดถึง) สามารถมีพลังอันยิ่งใหญ่เมื่อทางเลือกไม่ใช่การเปลี่ยนตำแหน่งของการกระจายดั้งเดิม นอกจากนี้วิธีการวัดความแตกต่างระหว่างการแจกแจงไม่ได้เป็นสกรรมกริยา
เกี่ยวกับการใช้การทดสอบ Wilcoxon-Mann-Whitney เป็นทางเลือกฉันขอแนะนำกระดาษThe Wilcoxon-Man-Whitney test ภายใต้การตรวจสอบข้อเท็จจริง
ในการทดสอบวิธีการหรือค่ามัธยฐานการทดสอบ Wilcoxon – Mann – Whitney (WMW) อาจไม่รุนแรงอย่างรุนแรงสำหรับการเบี่ยงเบนจากโมเดลกะบริสุทธิ์
นี่คือคำแนะนำของผู้เขียนบทความ:
การเปลี่ยนแปลงอันดับสามารถเปลี่ยนค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐานและความเบ้ของตัวอย่างทั้งสองแตกต่างกัน สถานการณ์เดียวที่รับประกันการเปลี่ยนตำแหน่งเพื่อให้ได้รับผลประโยชน์คือเมื่อการแจกแจงเท่ากันและขนาดตัวอย่างเท่ากัน สำหรับการเบี่ยงเบนจากสมมติฐานที่ค่อนข้างเข้มงวดเหล่านี้ผลกระทบของการเปลี่ยนแปลงอันดับในช่วงเวลาตัวอย่างไม่สามารถคาดเดาได้ ในการศึกษาแบบจำลองของกระดาษการทดสอบ WMW ถูกเปรียบเทียบกับการทดสอบ Fligner – Policello (FP) การทดสอบ Brunner – Munzel (BM) การทดสอบ T สองตัวอย่าง (T) การทดสอบ Welch U (U) และการทดสอบของ Welch U ในการจัดอันดับ (RU) การทดสอบตามอันดับสี่ (WMW, FP, BM และ RU) ดำเนินการในทำนองเดียวกันแม้ว่าการทดสอบ BM นั้นมักจะดีกว่าการทดสอบเล็กน้อยก็ตาม เมื่อขนาดตัวอย่างเท่ากัน การทดสอบตามพารามิเตอร์ (T และ U) เหนือกว่าการทดสอบตามระดับภายใต้สมมติฐานว่างของค่าเฉลี่ยเท่ากัน แต่ไม่อยู่ภายใต้สมมติฐานว่างของค่ามัธยฐานเท่ากัน เมื่อขนาดตัวอย่างไม่เท่ากันการทดสอบ BM, RU และ U ทำได้ดีที่สุด สำหรับการตั้งค่าต่าง ๆ การเปลี่ยนแปลงขนาดเล็กในคุณสมบัติของประชากรนำไปสู่การเปลี่ยนแปลงขนาดใหญ่ในประสิทธิภาพของการทดสอบ โดยสรุปการทดสอบ WMW ตัวอย่างขนาดใหญ่โดยประมาณอาจเป็นวิธีที่ไม่ดีสำหรับการเปรียบเทียบค่าเฉลี่ยหรือค่ามัธยฐานของประชากรสองกลุ่มยกเว้นว่าการแจกแจงทั้งสองจะมีรูปร่างเท่ากันและมีขนาดเท่ากัน ปัญหานี้ดูเหมือนว่าจะนำไปใช้ในหลาย ๆ องศากับการทดสอบ WMW ที่แน่นอนการทดสอบ FP การทดสอบ BM และการทดสอบ Welch U ในระดับ เมื่อใช้การทดสอบ WMW ผู้เขียนแนะนำว่าคุณสมบัติของตัวอย่างที่มีอันดับจะถูกตรวจสอบอย่างละเอียดเพื่อหาสัญญาณของความเบ้และความแตกต่างของความแปรปรวน