มีคำตอบมากมายสำหรับคำถามนี้ นี่คือสิ่งที่คุณอาจไม่เห็นที่อื่นดังนั้นฉันจึงรวมไว้ที่นี่เพราะฉันเชื่อว่าเกี่ยวข้องกับหัวข้อ ผู้คนมักจะเชื่อว่าเพราะค่ามัธยฐานนั้นถือเป็นมาตรการที่แข็งแกร่งเมื่อเทียบกับค่าผิดปกติที่ยังคงแข็งแกร่งสำหรับทุกสิ่งส่วนใหญ่ ในความเป็นจริงมันยังถือว่ามีความแข็งแกร่งในการตั้งค่าในการแจกแจงแบบเบ้ คุณสมบัติที่แข็งแกร่งทั้งสองของค่ามัธยฐานมักจะสอนด้วยกัน บางคนอาจสังเกตว่าการแจกแจงแบบเบ้พื้นฐานยังมีแนวโน้มที่จะสร้างกลุ่มตัวอย่างขนาดเล็กที่ดูเหมือนว่าพวกเขามีค่าผิดปกติและภูมิปัญญาดั้งเดิมก็คือคนคนหนึ่งใช้ค่ามัธยฐานในสถานการณ์เช่นนี้
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(เพียงแค่การสาธิตที่นี่เบ้และรูปร่างพื้นฐาน)
hist(rexg(1e4, 0, 1, 1))
ทีนี้มาดูกันว่าจะเกิดอะไรขึ้นถ้าเราสุ่มตัวอย่างจากการกระจายตัวอย่างขนาดต่างๆและคำนวณค่ามัธยฐานและค่าเฉลี่ยเพื่อดูความแตกต่างระหว่างพวกมัน
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
ดังที่เห็นได้จากพล็อตข้างต้นค่ามัธยฐาน (สีแดง) มีความไวมากกว่าค่าเฉลี่ย นี่เป็นสิ่งที่ตรงกันข้ามกับภูมิปัญญาดั้งเดิมบางประการเกี่ยวกับการใช้สื่อกลางที่มีค่าต่ำโดยเฉพาะอย่างยิ่งหากการแจกแจงอาจเบ้ และมันตอกย้ำจุดที่ค่าเฉลี่ยเป็นค่าที่ทราบในขณะที่ค่ามัธยฐานนั้นมีความอ่อนไหวต่อคุณสมบัติอื่น ๆ อย่างใดอย่างหนึ่งซึ่งเป็นค่า n
การวิเคราะห์นี้คล้ายกับ Miller, J. (1988) คำเตือนเกี่ยวกับเวลาปฏิกิริยาเฉลี่ย วารสารจิตวิทยาการทดลอง: การรับรู้และการปฏิบัติของมนุษย์ , 14 (3): 539–543
REVISION
เมื่อคิดเกี่ยวกับปัญหาความเบ้ฉันคิดว่าผลกระทบต่อค่ามัธยฐานอาจเป็นเพราะในตัวอย่างเล็ก ๆ คุณมีความเป็นไปได้มากกว่าที่ค่ามัธยฐานจะอยู่ในส่วนท้ายของการแจกแจง โหมด. ดังนั้นบางทีหากมีเพียงการสุ่มตัวอย่างด้วยค่าความน่าจะเป็นของค่าผิดปกติอาจจะเกิดผลลัพธ์เดียวกัน
ดังนั้นฉันจึงคิดถึงสถานการณ์ที่อาจเกิดค่าผิดปกติและผู้ทดลองอาจพยายามกำจัดพวกเขา
หากค่าผิดปกติเกิดขึ้นอย่างสม่ำเสมอเช่นหนึ่งในการสุ่มตัวอย่างข้อมูลทุกครั้งค่ามัธยฐานจะแข็งแกร่งขึ้นเมื่อเทียบกับผลของค่าผิดปกตินี้และเรื่องราวทั่วไปเกี่ยวกับการใช้สื่อเก็บไว้
แต่นั่นไม่ใช่เรื่องปกติ
หนึ่งอาจพบค่าผิดปกติในเซลล์น้อยมากของการทดสอบและตัดสินใจใช้ค่ามัธยฐานแทนค่าเฉลี่ยในกรณีนี้ อีกครั้งค่ามัธยฐานจะแข็งแกร่งขึ้น แต่ผลกระทบที่เกิดขึ้นจริงมีขนาดค่อนข้างเล็กเนื่องจากมีค่าผิดปกติน้อยมาก นี่จะเป็นกรณีที่พบได้บ่อยกว่ากรณีข้างต้น แต่ผลของการใช้ค่ามัธยฐานอาจมีขนาดเล็กจนไม่น่าสนใจเท่าไหร่
บางทีค่าผิดปกติที่พบบ่อยอาจเป็นส่วนประกอบที่สุ่มของข้อมูล ตัวอย่างเช่นค่าเฉลี่ยจริงและส่วนเบี่ยงเบนมาตรฐานของประชากรอาจอยู่ที่ประมาณ 0 แต่มีเปอร์เซ็นต์ของเวลาที่เราสุ่มตัวอย่างจากประชากรนอกที่ที่ค่าเฉลี่ยคือ 3 พิจารณาการจำลองต่อไปนี้โดยที่ประชากรเพียงตัวอย่างถูกสุ่มตัวอย่างแตกต่างกันไป ขนาด.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
ค่ามัธยฐานเป็นสีแดงและค่าเฉลี่ยเป็นสีดำ นี่คือการค้นพบที่คล้ายกันกับการแจกแจงแบบเบ้
ในตัวอย่างที่ใช้งานได้จริงของการใช้ค่ามัธยฐานเพื่อหลีกเลี่ยงผลกระทบของค่าผิดปกติเราสามารถเกิดขึ้นกับสถานการณ์ที่การประมาณการได้รับผลกระทบจาก n มากขึ้นเมื่อใช้ค่ามัธยฐานมากกว่าเมื่อใช้ค่าเฉลี่ย