T-test ไม่ปกติเมื่อ N> 50?


77

นานมาแล้วฉันได้เรียนรู้ว่าการแจกแจงแบบปกติจำเป็นต้องใช้การทดสอบตัวอย่างสองชุด วันนี้เพื่อนร่วมงานคนหนึ่งบอกฉันว่าเธอเรียนรู้ว่าสำหรับการแจกแจงปกติ N> 50 นั้นไม่จำเป็น มันเป็นเรื่องจริงเหรอ?

ถ้าเป็นจริงก็เพราะทฤษฎีบทขีด จำกัด กลาง?


3
คำถามที่เกี่ยวข้องกับคำตอบที่ดีมากโดย Glen_b stats.stackexchange.com/questions/121852/…
ทิม

คำตอบ:


82

สมมติฐานปกติของ t-test

พิจารณาประชากรขนาดใหญ่ที่คุณสามารถนำตัวอย่างที่แตกต่างกันหลายขนาดที่เฉพาะเจาะจง (ในการศึกษาโดยเฉพาะคุณมักรวบรวมตัวอย่างเหล่านี้เพียงหนึ่ง)

t-test สันนิษฐานว่าวิธีการของกลุ่มตัวอย่างที่แตกต่างกันมีการกระจายตามปกติ ไม่ได้สมมติว่าประชากรกระจายตัวตามปกติ

โดยทฤษฎีบทขีด จำกัด กลางหมายถึงกลุ่มตัวอย่างจากประชากรที่มีความแปรปรวน จำกัด วิธีการแจกแจงแบบปกติโดยไม่คำนึงถึงการกระจายตัวของประชากร กฎของหัวแม่มือบอกว่าโดยทั่วไปค่าเฉลี่ยตัวอย่างจะกระจายตราบเท่าที่ขนาดตัวอย่างมีอย่างน้อย 20 หรือ 30 เพื่อให้การทดสอบ t ใช้งานได้กับตัวอย่างที่มีขนาดเล็กลงการกระจายประชากรจะต้องเป็นปกติประมาณ

t-test ไม่ถูกต้องสำหรับตัวอย่างขนาดเล็กจากการแจกแจงแบบไม่ปกติ แต่ใช้ได้สำหรับตัวอย่างขนาดใหญ่จากการแจกแจงแบบไม่ปกติ

ตัวอย่างขนาดเล็กจากการแจกแจงแบบไม่ปกติ

ดังที่ Michael บันทึกไว้ด้านล่างขนาดตัวอย่างที่จำเป็นสำหรับการแจกแจงค่าเฉลี่ยของค่าเฉลี่ยขึ้นอยู่กับระดับความไม่เป็นมาตรฐานของประชากร สำหรับการแจกแจงปกติโดยประมาณคุณไม่จำเป็นต้องมีกลุ่มตัวอย่างขนาดใหญ่เท่ากับการแจกแจงแบบไม่ธรรมดามาก

นี่คือแบบจำลองบางส่วนที่คุณสามารถเรียกใช้ใน R เพื่อรับความรู้สึกนี้ ก่อนอื่นนี่คือการกระจายตัวของประชากร

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

ถัดไปเป็นการจำลองกลุ่มตัวอย่างจากการแจกแจงของประชากร ในแต่ละบรรทัดเหล่านี้ "10" คือขนาดตัวอย่าง "100" คือจำนวนตัวอย่างและฟังก์ชันหลังจากนั้นระบุการกระจายของประชากร พวกมันสร้างฮิสโตแกรมของค่าเฉลี่ยตัวอย่าง

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

เพื่อให้การทดสอบ t ใช้งานได้ฮิสโทแกรมเหล่านี้ควรเป็นปกติ

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

ประโยชน์ของการทดสอบ t

ฉันต้องทราบว่าความรู้ทั้งหมดที่ฉันมอบให้นั้นค่อนข้างล้าสมัย ตอนนี้เรามีคอมพิวเตอร์เราทำได้ดีกว่าการทดสอบ t ในฐานะที่เป็นบันทึกของ Frank คุณอาจต้องการใช้การทดสอบ Wilcoxonทุกที่ที่คุณได้รับการสอนให้ใช้การทดสอบ t


7
คำอธิบายที่ดี (+1) ฉันจะเพิ่มอย่างไรขนาดของกลุ่มตัวอย่างที่จำเป็นสำหรับการแจกแจงวิธีการประมาณค่าปกตินั้นขึ้นอยู่กับระดับของความไม่ปกติของประชากร สำหรับกลุ่มตัวอย่างขนาดใหญ่ไม่มีเหตุผลที่จะชอบการทดสอบ t-test มากกว่าการทดสอบการเรียงสับเปลี่ยนที่ไม่ได้ตั้งสมมติฐานเกี่ยวกับการแจกแจง
Michael Lew

2
+1 แม้ว่าเท่าที่ฉันรู้ t-test นั้นค่อนข้างจะทนต่อการเบี่ยงเบนจากระดับปกติ นอกจากนี้ยังมีการสนทนาที่เกี่ยวข้องที่น่าสนใจ: stats.stackexchange.com/questions/2492/…
nico

4
คำตอบที่ดีแม้ว่าจะมีรายละเอียดเล็ก ๆ น้อย ๆ ที่คุณพลาด: การกระจายของข้อมูลจะต้องมีความแปรปรวนแน่นอน การทดสอบ T นั้นไม่มีความหวังสำหรับการเปรียบเทียบความแตกต่างในที่ตั้งของการแจกแจงแบบ Cauchy สองครั้ง (หรือนักเรียนที่มีอิสระ 2 องศา) ไม่ใช่เพราะมันเป็น "การไม่ทนทาน" แต่เนื่องจากการแจกแจงเหล่านี้มีข้อมูลที่เกี่ยวข้องเพิ่มเติมในตัวอย่าง และค่าเบี่ยงเบนมาตรฐานที่การทดสอบ t ทิ้งไป
ความน่าจะเป็นทางการ

2
นอกจากนี้การทดสอบ t-test ยังให้ช่วงความมั่นใจตามธรรมชาติสำหรับพารามิเตอร์ที่ถูกตรวจสอบ (ยัง upvote เนื่องจากสองย่อหน้าแรกที่อยู่คำถามโดยตรงฉันไม่เห็นด้วยอย่างยิ่งกับบุคคลที่สาม)
Erik

6
t-test DOES ต้องการความเป็นปกติของประชากร นั่นคือสมมติฐานที่จำเป็นสำหรับสถิติ t เพื่อให้มีการแจกแจงแบบ t-Student หากคุณไม่มีประชากรปกติคุณจะไม่สามารถแสดงสถิติ t เป็นตัวแปรปกติมาตรฐานหารด้วยรากของตัวแปร Chi-squared หารด้วยองศาอิสระ บางทีสิ่งที่คุณกำลังพยายามจะพูดคือถ้าเงื่อนไขบางอย่างเป็นจริงเช่นไม่เบ้มากเกินไปหรือเป็นกลุ่มตัวอย่างขนาดใหญ่การทดสอบยังคงใช้ได้แม้ว่าประชากรจะไม่ปกติ
toneloy

44

ทฤษฎีขีด จำกัด กลางมีประโยชน์น้อยกว่าที่คิดในบริบทนี้ ครั้งแรกเมื่อมีคนชี้ให้เห็นแล้วไม่มีใครรู้ว่าขนาดตัวอย่างปัจจุบันเป็น "ใหญ่พอ" ประการที่สอง CLT นั้นเกี่ยวกับการบรรลุข้อผิดพลาดประเภท I ที่ต้องการมากกว่าข้อผิดพลาดเกี่ยวกับ type II กล่าวอีกนัยหนึ่งการทดสอบ t- สามารถ uncompetitive พลัง - ฉลาด นั่นเป็นเหตุผลที่การทดสอบของวิลคอกซันเป็นที่นิยมมาก หากความเป็นปรกติมีค่า 95% จะมีประสิทธิภาพเท่ากับการทดสอบ t หากความปกติไม่ถือมันจะมีประสิทธิภาพมากกว่าการทดสอบ t


7
(+1) ยินดีต้อนรับสู่เว็บไซต์ซึ่งฉันดีใจที่คุณพบ ฉันหวังว่าจะมีส่วนร่วมของคุณที่นี่
พระคาร์ดินัล

4
(+1) ข้อดีของ Wilcoxon
whuber

18

ดูคำตอบก่อนหน้าของฉันกับคำถามเกี่ยวกับความทนทานของ t-test

โดยเฉพาะอย่างยิ่งผมขอแนะนำให้เล่นรอบกับแอปเพล็ onlinestatsbook

ภาพด้านล่างเป็นไปตามสถานการณ์ต่อไปนี้:

  • สมมติฐานว่างเป็นจริง
  • ค่อนข้างเบ้รุนแรง
  • การกระจายตัวเดียวกันในทั้งสองกลุ่ม
  • ความแปรปรวนเดียวกันในทั้งสองกลุ่ม
  • ขนาดตัวอย่างต่อกลุ่ม 5 (เช่นน้อยกว่า 50 มากตามคำถามของคุณ)
  • ฉันกดปุ่ม 10,000 เครื่องจำลองประมาณ 100 ครั้งเพื่อให้ได้เครื่องมากกว่าหนึ่งล้านเครื่อง

การจำลองที่ได้แสดงให้เห็นว่าแทนที่จะได้รับข้อผิดพลาด 5% Type I ฉันได้รับข้อผิดพลาด 4.5% Type I เท่านั้น

ไม่ว่าคุณจะพิจารณาความแข็งแกร่งนี้หรือไม่นั้นขึ้นอยู่กับมุมมองของคุณ

ป้อนคำอธิบายรูปภาพที่นี่


4
+1 คะแนนดี อำนาจของ t-test ที่มีทางเลือกเบ้ แต่สามารถลดอย่างรุนแรง (ไปยังจุดที่จะเป็นหลักเป็นศูนย์แม้สำหรับขนาดผลอย่างมาก)
whuber

6

จากประสบการณ์ของฉันด้วยการทดสอบ t-test เพียงครั้งเดียวฉันพบว่าการแจกแจงความเบ้สำคัญกว่าความโด่ง สำหรับการแจกแจงแบบไม่เอียง แต่มีไขมันเทลด์ (ที่ความเป็นอิสระ 5 องศา, การแจกแจงแบบ Tukey h ด้วย , ฯลฯ ) ฉันพบว่า 40 ตัวอย่างมีเพียงพอที่จะได้รับอัตราเชิงประจักษ์ประเภทหนึ่งใกล้กับค่าเล็กน้อย . อย่างไรก็ตามเมื่อการกระจายเบ้มากคุณอาจต้องมีตัวอย่างอีกมากมายh=0.24999

ตัวอย่างเช่นสมมติว่าคุณกำลังเล่นลอตเตอรี ด้วยความน่าจะเป็นคุณจะได้รับ 100,000 ดอลลาร์และด้วยความน่าจะเป็นคุณจะสูญเสียหนึ่งดอลลาร์ หากคุณทำการทดสอบ t สำหรับค่า Null ที่ค่าเฉลี่ยผลตอบแทนเป็นศูนย์จากตัวอย่างของการดึงหนึ่งพันครั้งของกระบวนการนี้ฉันไม่คิดว่าคุณจะบรรลุอัตราที่ระบุประเภท Ip=1041p

แก้ไข : duh, ต่อ @ whuber ของการจับในความคิดเห็นตัวอย่างที่ฉันให้ไม่ได้มีค่าเฉลี่ยเป็นศูนย์ดังนั้นการทดสอบสำหรับค่าเฉลี่ยศูนย์จะไม่มีอะไรเกี่ยวข้องกับอัตราการพิมพ์ของฉัน

เนื่องจากตัวอย่างลอตเตอรีมักจะมีค่าเบี่ยงเบนมาตรฐานตัวอย่างเป็นศูนย์จึงทำให้การทดสอบ t ดังนั้นแทนที่จะผมให้เป็นตัวอย่างที่ใช้รหัส Goerg ของแลมเบิร์กว้าง x เสียนกระจาย การกระจายที่ฉันใช้ตรงนี้มีความเบ้ประมาณ 1355

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

รหัสนี้จะให้อัตราการปฏิเสธเชิงประจักษ์ที่ระดับ 0.05 เล็กน้อยสำหรับขนาดตัวอย่างที่แตกต่างกัน สำหรับตัวอย่างขนาด 50 อัตราการทดลองคือ 0.40 (!); สำหรับขนาดตัวอย่าง 250, 0.29; สำหรับขนาดตัวอย่าง 1,000, 0.21; สำหรับขนาดตัวอย่าง 2000, 0.18 เห็นได้ชัดว่า t-test หนึ่งตัวอย่างทนทุกข์จากความเบ้


ในตัวอย่างที่คุณพูดถึงพลังของการทดสอบไม่ใช่ขนาดของมัน ทางโมฆะดูเหมือนว่าจะเป็นซึ่งการกระจายตัวลดลง (อะตอม ณ จุดเดียว): นั่นมันห่างไกลจากกฎเกณฑ์ทั่วไปเท่าที่จะเป็นไปได้! p=0
whuber

1

ทฤษฎีบทขีด จำกัด กลางกำหนด (ภายใต้เงื่อนไขที่กำหนด) ว่าตัวเศษของสถิติ t-asymptotically ปกติ สถิติสถิติมีตัวส่วน ในการมีการแจกแจงแบบ t คุณต้องมีตัวส่วนเป็นอิสระและสแควร์รูทของ a-chi-square-on-its-df

และเรารู้ว่ามันจะไม่เป็นอิสระ (นั่นเป็นลักษณะปกติ!)

ทฤษฎีบทของ Slutsky รวมกับ CLT จะทำให้คุณรู้ว่าสถิติ t-asymptotically เป็นปกติ (แต่ไม่จำเป็นในอัตราที่มีประโยชน์มาก)

ทฤษฎีบทอะไรที่จะพิสูจน์ได้ว่าสถิติเชิงสถิตินั้นมีค่าประมาณ t-distribution เมื่อไม่มีกฎเกณฑ์อะไรและมันมาเร็วแค่ไหน? (แน่นอนในที่สุด t- จะเข้าใกล้ปกติเช่นกัน แต่เราสมมติว่าการประมาณการประมาณอื่นจะดีกว่าการใช้การประมาณปกติ ... )


แต่สำคัญกว่าโดยอ้างว่าระดับความทนทานของ (ที่ขนาดตัวอย่างขนาดใหญ่) เป็นผลกระทบต่อของอำนาจ โปรดทราบว่าประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติคของ t-test เทียบกับ Wilcoxon-Mann-Whitney (ตัวอย่าง) อาจเป็น 0 (เช่นขนาดตัวอย่างมีขนาดใหญ่ในขณะที่ขนาดเอฟเฟกต์ที่คุณต้องการรับการหดตัว t เพื่อให้มีพลังงานเช่นเดียวกับทางเลือกที่ชัดเจน)t

ดังนั้นในขณะที่การทดสอบการทดสอบอาจสิ้นสุดลงด้วยการแจกแจงโมฆะที่ดูดีปกติในหลายกรณีถ้ามีขนาดใหญ่พอประสิทธิภาพการทำงานภายใต้ค่า null นั้นไม่ได้เป็นสิ่งที่ผู้คนสนใจมากที่สุด - คือประสิทธิภาพภายใต้ทางเลือก - และ มันอาจจะไม่ดีนักถ้าคุณสนใจที่จะปฏิเสธโมฆะในกรณีที่เอฟเฟกต์นั้นไม่ง่ายนักn


3
ขณะที่เราอาจไม่ทราบว่ากลุ่มตัวอย่างมีความหมายและความแปรปรวนเป็นอิสระเรามักจะรู้ว่าพวกเขาไม่มีความ นี่เป็นเพราะค่าเฉลี่ยตัวอย่างคือฟังก์ชันของผลรวม bivariateและความแปรปรวนตัวอย่างเป็นฟังก์ชันของความแตกต่างของตัวแปร bivariate (นี่เรียกว่า "สถิติของ U") และ เรามีตราบใดที่การแจกแจงคือ "homogenous"ซึ่งเป็นส่วนหนึ่งของคำชี้แจงปัญหา . xi+xjxixjv a r ( x i ) = v a r ( x j )cov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
ความน่าจะเป็นทางการ

1
น่าเสียดายที่ความแตกต่างระหว่าง uncorrelated และอิสระนั้นมีความเกี่ยวข้องหากเราจะต้องจบลงด้วยการแจกแจงที
Glen_b

0

ใช่ทฤษฎีขีด จำกัด กลางบอกเราว่านี่เป็นความจริง ตราบใดที่คุณหลีกเลี่ยงลักษณะที่มีน้ำหนักมากเป็นพิเศษการไม่อยู่ในเกณฑ์ปกติจะไม่มีปัญหาในกลุ่มตัวอย่างที่มีขนาดปานกลางถึงใหญ่

นี่คือกระดาษตรวจสอบที่เป็นประโยชน์

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

การทดสอบของวิลคอกซัน (ที่คนอื่นพูดถึง) สามารถมีพลังอันยิ่งใหญ่เมื่อทางเลือกไม่ใช่การเปลี่ยนตำแหน่งของการกระจายดั้งเดิม นอกจากนี้วิธีการวัดความแตกต่างระหว่างการแจกแจงไม่ได้เป็นสกรรมกริยา


จุดที่น่าสนใจเกี่ยวกับ Wilcoxon อย่างไรก็ตาม t-test มีปัญหาคล้ายกัน: โดยเฉพาะการตรวจจับการเปลี่ยนแปลงที่มาพร้อมกับความแปรปรวนเพิ่มขึ้น บิตเกี่ยวกับการเปลี่ยนแปลงดูเหมือนจะเป็นส่วนใหญ่อยากรู้อยากเห็นในบริบทปัจจุบัน; เป็นการยากที่จะดูว่าเกี่ยวข้องกับการทดสอบสมมติฐานดั้งเดิมหรือการตีความของมันอย่างไร (แต่บางทีการสื่อสารระหว่างกันอาจกลายเป็นสิ่งสำคัญในการตั้งค่าการวิเคราะห์ความแปรปรวนหรือการเปรียบเทียบหลายครั้ง)
whuber

ความแปรปรวนแบบไม่เท่ากัน t-test (ซึ่งเป็นค่าเริ่มต้นในซอฟต์แวร์บางตัว) ไม่มีปัญหากับ heteroskedasticity
แขกรับเชิญ

เกี่ยวกับความไว การรายงานค่าเฉลี่ยตัวอย่างหรือความแตกต่างในค่าเฉลี่ย (ซึ่งเป็นวิธีธรรมชาติที่ใช้วิธีการทดสอบแบบทดสอบ t) ให้สิ่งที่ผู้อ่านสามารถพิจารณาเมื่อสุ่มตัวอย่างจากประชากรอื่น การไม่ผ่านการทดสอบวิลคอกซันหมายความว่าวิธีนี้ไม่มีความคล้ายคลึงกัน การใช้อันดับของข้อมูลเป็นวิธีการที่ จำกัด มาก
แขกที่เข้าพัก

1
(1) การทดสอบ Satterthwaite-Welch (ความแปรปรวนไม่เท่ากัน) ไม่ได้เอาชนะการสูญเสียพลังงานที่ฉันอ้างถึง (แม้ว่าจะช่วยได้บ้าง) (2) ฉันคิดว่าคุณมีความเป็นสุดขั้วในการกำหนดลักษณะโดยใช้อันดับเป็น "จำกัด " ในการตอบกลับของเขา @ Frank Harrell หมายถึงการศึกษาแสดงให้เห็นว่าการทดสอบ Wilcoxon มีประสิทธิภาพสูงในหลาย ๆ สถานการณ์: นี่แสดงให้เห็นว่าการใช้อันดับมีประสิทธิภาพและยืดหยุ่นมากขึ้นไม่ จำกัด เมื่อเปรียบเทียบกับการทดสอบ t
whuber

(1) ไม่ แต่ให้อัตราความผิดพลาด Type I ที่ถูกต้องในกลุ่มตัวอย่างขนาดปานกลางถึงใหญ่ (2) ขอบคุณ แต่ฉันไม่เห็นด้วยอย่างเคารพ การใช้การทดสอบแบบ t บนวิลคอกซันทำให้ง่ายขึ้นในการลดช่องว่างระหว่างการทดสอบและการใช้ช่วงความมั่นใจ หากใครต้องการทดสอบและไม่เคยดูเกินกว่าสองกลุ่มในการศึกษาแน่นอนว่า Wilcoxon มีสถานการณ์ที่ใช้งานได้ดี แต่บ่อยครั้งที่เราไม่ต้องการทำการทดสอบและต้องการช่วยผู้ใช้ในการสรุปผลสถานการณ์ทั่วไป การทดสอบ Wilcoxon นั้นไม่เป็นประโยชน์
แขกที่เข้าพัก

0

เกี่ยวกับการใช้การทดสอบ Wilcoxon-Mann-Whitney เป็นทางเลือกฉันขอแนะนำกระดาษThe Wilcoxon-Man-Whitney test ภายใต้การตรวจสอบข้อเท็จจริง

ในการทดสอบวิธีการหรือค่ามัธยฐานการทดสอบ Wilcoxon – Mann – Whitney (WMW) อาจไม่รุนแรงอย่างรุนแรงสำหรับการเบี่ยงเบนจากโมเดลกะบริสุทธิ์

นี่คือคำแนะนำของผู้เขียนบทความ:

การเปลี่ยนแปลงอันดับสามารถเปลี่ยนค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐานและความเบ้ของตัวอย่างทั้งสองแตกต่างกัน สถานการณ์เดียวที่รับประกันการเปลี่ยนตำแหน่งเพื่อให้ได้รับผลประโยชน์คือเมื่อการแจกแจงเท่ากันและขนาดตัวอย่างเท่ากัน สำหรับการเบี่ยงเบนจากสมมติฐานที่ค่อนข้างเข้มงวดเหล่านี้ผลกระทบของการเปลี่ยนแปลงอันดับในช่วงเวลาตัวอย่างไม่สามารถคาดเดาได้ ในการศึกษาแบบจำลองของกระดาษการทดสอบ WMW ถูกเปรียบเทียบกับการทดสอบ Fligner – Policello (FP) การทดสอบ Brunner – Munzel (BM) การทดสอบ T สองตัวอย่าง (T) การทดสอบ Welch U (U) และการทดสอบของ Welch U ในการจัดอันดับ (RU) การทดสอบตามอันดับสี่ (WMW, FP, BM และ RU) ดำเนินการในทำนองเดียวกันแม้ว่าการทดสอบ BM นั้นมักจะดีกว่าการทดสอบเล็กน้อยก็ตาม เมื่อขนาดตัวอย่างเท่ากัน การทดสอบตามพารามิเตอร์ (T และ U) เหนือกว่าการทดสอบตามระดับภายใต้สมมติฐานว่างของค่าเฉลี่ยเท่ากัน แต่ไม่อยู่ภายใต้สมมติฐานว่างของค่ามัธยฐานเท่ากัน เมื่อขนาดตัวอย่างไม่เท่ากันการทดสอบ BM, RU และ U ทำได้ดีที่สุด สำหรับการตั้งค่าต่าง ๆ การเปลี่ยนแปลงขนาดเล็กในคุณสมบัติของประชากรนำไปสู่การเปลี่ยนแปลงขนาดใหญ่ในประสิทธิภาพของการทดสอบ โดยสรุปการทดสอบ WMW ตัวอย่างขนาดใหญ่โดยประมาณอาจเป็นวิธีที่ไม่ดีสำหรับการเปรียบเทียบค่าเฉลี่ยหรือค่ามัธยฐานของประชากรสองกลุ่มยกเว้นว่าการแจกแจงทั้งสองจะมีรูปร่างเท่ากันและมีขนาดเท่ากัน ปัญหานี้ดูเหมือนว่าจะนำไปใช้ในหลาย ๆ องศากับการทดสอบ WMW ที่แน่นอนการทดสอบ FP การทดสอบ BM และการทดสอบ Welch U ในระดับ เมื่อใช้การทดสอบ WMW ผู้เขียนแนะนำว่าคุณสมบัติของตัวอย่างที่มีอันดับจะถูกตรวจสอบอย่างละเอียดเพื่อหาสัญญาณของความเบ้และความแตกต่างของความแปรปรวน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.