ถ้าหมายถึงอ่อนไหวทำไมใช้มันตั้งแต่แรก?


84

มันเป็นความจริงที่รู้จักกันว่าค่ามัธยฐานสามารถทนต่อค่าผิดปกติ ถ้าเป็นเช่นนั้นเราจะใช้ค่าเริ่มต้นเมื่อใดและทำไม

สิ่งหนึ่งที่ฉันสามารถนึกได้ก็คือเข้าใจว่ามีค่าผิดปกติเช่นถ้าค่ามัธยฐานอยู่ห่างจากค่าเฉลี่ยจากนั้นการแจกแจงจะเบ้และอาจต้องมีการตรวจสอบข้อมูลเพื่อตัดสินใจว่าจะทำอย่างไรกับค่าผิดปกติ มีการใช้อื่น ๆ ?


14
เกี่ยวกับคำถามแรกโปรดทราบอย่างรวดเร็ว: ค่าเฉลี่ยในสถิติเป็นเพียงช่วงเวลาแรกของประชากรในขณะที่ค่ามัธยฐานไม่ใช่ การค้นหาการใช้ CLT กฎหมายจำนวนมาก ฯลฯ คุณเชื่อมโยงอีกครั้งกับการมีอยู่ของช่วงเวลาที่ จำกัด แม้ว่าการเช่น Cauchy กระจาย: เฉลี่ยอยู่ในขณะที่ค่าเฉลี่ยไม่ได้;)
Dmitrij Celov

2
@Dmitrij นั่นคือคำตอบที่ลึกซึ้งและลึกซึ้ง ทำไมคุณไม่อธิบายอย่างละเอียดในคำตอบ?
whuber

หากคุณไม่ได้ใช้ค่าเฉลี่ยที่คุณทำร้ายความรู้สึกของมัน? (ขออภัยไม่สามารถต้านทานได้)
Daniel R Hicks เมื่อ

3
@Daniel R Hicks: และนั่นก็หมายความว่าใช่มั้ย (ขออภัยไม่สามารถต้านทานได้เช่นกัน)
Muhammad Alkarouri

3
คำถามนี้น่าสนใจมากขึ้นกว่าปกติ "ทำไมเราไม่ใช้อัลกอริธึมที่มีประสิทธิภาพ" คำถาม แต่อาจมีความคิดพื้นฐานเดียวกันว่า "แข็งแกร่ง == เวทมนต์" และหากเราใช้วิธีการที่มีประสิทธิภาพเราไม่จำเป็นต้องตรวจสอบข้อมูลของเราเข้าใจหรือกังวลเกี่ยวกับปัญหาความแม่นยำที่หลากหลาย "แข็งแกร่ง" ถึงกระนั้น +1
เวย์น

คำตอบ:


113

เรียกอีกอย่างหนึ่งว่าค่าเฉลี่ยนั้นใช้เพราะมีความอ่อนไหวต่อข้อมูล หากการกระจายตัวเกิดขึ้นแบบสมมาตรและก้อยคล้ายกับการแจกแจงแบบปกติค่าเฉลี่ยคือการสรุปแนวโน้มของศูนย์กลางอย่างมีประสิทธิภาพมาก ค่ามัธยฐานในขณะที่มีความแข็งแกร่งและถูกนิยามไว้อย่างดีสำหรับการแจกแจงแบบต่อเนื่องใด ๆ จะมีเพียงที่มีประสิทธิภาพเท่ากับค่าเฉลี่ยหากข้อมูลเกิดขึ้นจากการแจกแจงแบบปกติ มันเป็นความไร้ประสิทธิภาพของค่ามัธยฐานที่ทำให้เราไม่สามารถใช้งานได้มากกว่าที่เราทำ ความไร้ประสิทธิภาพสัมพัทธ์แปลเป็นความไร้ประสิทธิภาพสัมบูรณ์เล็กน้อยเมื่อขนาดตัวอย่างใหญ่ขึ้นดังนั้นสำหรับขนาดใหญ่เราสามารถรู้สึกผิดมากขึ้นเกี่ยวกับการใช้ค่ามัธยฐาน2πn

เป็นที่น่าสนใจที่จะทราบว่าสำหรับการวัดความแปรปรวน (การแพร่กระจายการกระจาย) มีตัวประมาณที่แข็งแกร่งมากที่ 0.98 มีประสิทธิภาพเท่ากับส่วนเบี่ยงเบนมาตรฐานคือความแตกต่างเฉลี่ยของ Gini นี่คือความแตกต่างโดยเฉลี่ยระหว่างการสำรวจสองครั้ง [คุณต้องคูณค่าเบี่ยงเบนมาตรฐานตัวอย่างด้วยค่าคงที่เพื่อประเมินปริมาณเดียวกันโดยประมาณด้วยความแตกต่างของค่าเฉลี่ยของ Gini] การวัดแนวโน้มที่มีประสิทธิภาพของส่วนกลางคือตัวประมาณ Hodges-Lehmann เช่นค่ามัธยฐานของค่าเฉลี่ยทุกคู่ เราจะใช้มันมากกว่านี้ถ้าการตีความมันง่ายขึ้น


13
+1 สำหรับการกล่าวถึงตัวประเมิน Hodges-Lehmann ของแนวโน้มกลาง ในหลายประการมันอยู่ระหว่างค่าเฉลี่ยและค่ามัธยฐาน ถ้าเพียง แต่มันง่ายในการคำนวณในตัวอย่างขนาดใหญ่มันจะเป็นที่นิยมมากกว่าค่าเฉลี่ยหรือค่ามัธยฐานเป็นตัวชี้วัดที่ตั้งฉันคิดว่า
ttnphns

BTW, @Frank คุณรู้หรือไม่ว่าศูนย์กระจายสินค้า Hodges-Lehmann ตามทฤษฎีใด ฉันไม่ - และฉันสนใจ
ttnphns

16
ขอบคุณสำหรับความคิดเห็น หนึ่งซับใน R สามารถคำนวณได้อย่างมีประสิทธิภาพขึ้นไป N = w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/25000: โปรแกรม C, Fortran หรือ Ratfor ที่ไม่สำคัญสามารถเรียกได้โดย R เพื่อทำให้มันเด่นชัดอย่างรวดเร็ว แพ็คเกจ ICSNP ใน R มีการใช้งานอย่างมีประสิทธิภาพด้วยhl.locฟังก์ชั่น สำหรับ N = 5,000 มันเร็วกว่าโค้ดข้างต้น 2.66 เท่า (รวมเวลา 1.5 วินาที) มันจะดีถ้าได้รับช่วงความมั่นใจอย่างมีประสิทธิภาพ
Frank Harrell

@ FrankHarrel คุณสามารถพูดอะไรเกี่ยวกับตัวประมาณและสำหรับส่วนเบี่ยงเบนมาตรฐาน ฉันควรใช้ค่าคงที่ใดสำหรับการประมาณโดยใช้ความแตกต่างเฉลี่ยของ Gini สำหรับการแจกแจงแบบไม่ปกติ ฉันไม่พบเอกสารที่อธิบายขั้นตอนการคำนวณค่าคงที่นี้ในแหล่งเข้าถึงแบบเปิด ... นอกจากนี้ฉันไม่พบข้อมูลเกี่ยวกับความทนทานของความแตกต่างเฉลี่ยของ Gini คุณสามารถให้ความคิดในการค้นหาได้หรือไม่ Q n σSnQnσ
ภาษาเยอรมัน Demidov

1
เรากำลังพูดถึงมาตรการการกระจายตัวดังนั้นการเปรียบเทียบแบบจำลองจึงไม่เป็นปัญหา (และอย่าสับสนกับ "ดัชนีของ Gini") ความแตกต่างเฉลี่ยของ Gini คือการวัดแบบสัมบูรณ์ ง่ายต่อการตีความมากกว่ามาตรการอื่น ๆ ความจริงที่ว่าคุณจะต้องคำนวณค่าคงที่แตกต่างกันสำหรับการแจกแจงทุกครั้งบอกฉันว่าเราไม่ต้องการใช้ค่าคงที่
Frank Harrell

36

คำตอบที่ยอดเยี่ยมมากมายแล้ว แต่เมื่อย้อนกลับไปหาขั้นพื้นฐานเล็กน้อยฉันจะบอกว่ามันเป็นเพราะคำตอบที่คุณได้รับนั้นขึ้นอยู่กับคำถามที่คุณถาม ค่าเฉลี่ยและค่ามัธยฐานตอบคำถามที่แตกต่าง - บางครั้งมีความเหมาะสมบางครั้งอื่น ๆ

มันง่ายที่จะบอกว่าควรใช้ค่ามัธยฐานเมื่อมีค่าผิดปกติหรือเป็นค่าเบี่ยงเบนหรืออะไรก็ตาม แต่นั่นไม่ใช่กรณีเสมอไป รับรายได้ - รายงานเกือบจะเสมอกับค่ามัธยฐานและมักจะถูกต้อง แต่ถ้าคุณดูที่อำนาจการใช้จ่ายของชุมชนทั้งหมดอาจไม่ถูกต้อง และในบางกรณีแม้โหมดอาจจะดีที่สุด (โดยเฉพาะถ้าข้อมูลถูกจัดกลุ่ม)


8
+1 สำหรับจุดที่เห็นได้ชัดว่าไม่มีใครอยู่: พวกเขาเป็นแนวคิดที่แตกต่างและตอบคำถามต่าง ๆ นอกจากนี้ในหลาย ๆ กรณีจะสูญเสียไปมากโดยการรวมการแจกแจงทั้งหมดไว้ในหมายเลขสรุปเดียวดังนั้นบางครั้งพวกเขาทั้งสองก็ทำงานหมัด
Michael McGowan

25

เมื่อค่าเป็นขยะสำหรับเราเราเรียกมันว่า "outliar" และต้องการการวิเคราะห์ที่แข็งแกร่ง (และชอบค่ามัธยฐาน) เมื่อค่าเดียวกันนั้นน่าดึงดูดเราเรียกมันว่า "สุดขีด" และต้องการการวิเคราะห์ที่ละเอียดอ่อน (และต้องการค่าเฉลี่ย) เหตุ ...

ค่าเฉลี่ยจะตอบสนองอย่างเท่าเทียมกันกับการเปลี่ยนแปลงของค่าโดยไม่คำนึงถึงตำแหน่งที่เกิดการเปลี่ยนแปลง ตัวอย่างเช่นใน1 2 3 4 5คุณอาจเพิ่มค่าใด ๆด้วย 2 - การเพิ่มค่าเฉลี่ยจะเท่ากัน ปฏิกิริยาของค่ามัธยฐานนั้นน้อยกว่า "สอดคล้อง": เพิ่ม 2 ไปยังจุดข้อมูล 4 หรือ 5 และค่ามัธยฐานจะไม่เพิ่มขึ้น แต่เพิ่ม 2 ถึงจุด 2 - เพื่อให้การเปลี่ยนแปลงอยู่เหนือค่ามัธยฐานและค่ามัธยฐานเปลี่ยนแปลงอย่างรวดเร็ว (ยิ่งกว่าค่าเฉลี่ยจะเปลี่ยน)

ค่าเฉลี่ยอยู่เสมออย่างแน่นอน ค่ามัธยฐานไม่ใช่ ตัวอย่างเช่นในการตั้งค่า1 2 3 4 ใด ๆระหว่าง 2 และ 3 สามารถเรียกว่าค่ามัธยฐาน ดังนั้นการวิเคราะห์จากค่ามัธยฐานจึงไม่ใช่วิธีที่ไม่ซ้ำกันเสมอไป

Mean เป็นทีของผลรวมของการเบี่ยงเบนน้อยที่สุด งานการปรับให้เหมาะสมจำนวนมากขึ้นอยู่กับพีชคณิตเชิงเส้น (รวมถึงการถดถอย OLS ที่มีชื่อเสียง) ลดข้อผิดพลาดกำลังสองนี้และดังนั้นจึงหมายถึงแนวคิดของค่าเฉลี่ย มัธยฐานเป็นสถานที่แห่งผลรวมเบี่ยงเบนน้อยที่สุด เทคนิคการหาค่าเหมาะที่สุดเพื่อลดข้อผิดพลาดดังกล่าวไม่ใช่แบบเส้นตรงและมีความซับซ้อน / ไม่ดี


2
+1 ฉันมีความกังวลเล็กน้อยว่าย่อหน้าแรกอาจเข้าใจผิดเนื่องจากการตรวจจับนอกกรอบที่อ้างถึงนั้นเป็นกระบวนการเชิงอัตวิสัย ฉันไม่คิดว่าคุณหมายถึงว่า
whuber

8
+1 | ฉันคิดว่าประโยคแรกบอกเป็นนัยว่าการใช้การตรวจจับนอกกรอบเป็นเรื่องส่วนตัวทั้งหมดดังนั้นฉันจึงลงคะแนนให้ตามเดิม
จอห์น

2
ฉันหมายถึงการตรวจหานอกสถานที่เป็นขั้นตอนที่เข้มงวดที่มีรากเหง้าทางปรัชญาหรือทางศีลธรรม
ttnphns

3
@ttnphns การสะกดคำว่า "outliar" แทนที่จะเป็น "outlier" โดยเจตนาหรือไม่?
mpiktas

1
พิมพ์ผิดโดยไม่ได้ตั้งใจ
ttnphns

16

มีคำตอบมากมายสำหรับคำถามนี้ นี่คือสิ่งที่คุณอาจไม่เห็นที่อื่นดังนั้นฉันจึงรวมไว้ที่นี่เพราะฉันเชื่อว่าเกี่ยวข้องกับหัวข้อ ผู้คนมักจะเชื่อว่าเพราะค่ามัธยฐานนั้นถือเป็นมาตรการที่แข็งแกร่งเมื่อเทียบกับค่าผิดปกติที่ยังคงแข็งแกร่งสำหรับทุกสิ่งส่วนใหญ่ ในความเป็นจริงมันยังถือว่ามีความแข็งแกร่งในการตั้งค่าในการแจกแจงแบบเบ้ คุณสมบัติที่แข็งแกร่งทั้งสองของค่ามัธยฐานมักจะสอนด้วยกัน บางคนอาจสังเกตว่าการแจกแจงแบบเบ้พื้นฐานยังมีแนวโน้มที่จะสร้างกลุ่มตัวอย่างขนาดเล็กที่ดูเหมือนว่าพวกเขามีค่าผิดปกติและภูมิปัญญาดั้งเดิมก็คือคนคนหนึ่งใช้ค่ามัธยฐานในสถานการณ์เช่นนี้

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(เพียงแค่การสาธิตที่นี่เบ้และรูปร่างพื้นฐาน)

hist(rexg(1e4, 0, 1, 1))

พล็อต

ทีนี้มาดูกันว่าจะเกิดอะไรขึ้นถ้าเราสุ่มตัวอย่างจากการกระจายตัวอย่างขนาดต่างๆและคำนวณค่ามัธยฐานและค่าเฉลี่ยเพื่อดูความแตกต่างระหว่างพวกมัน

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

ดังที่เห็นได้จากพล็อตข้างต้นค่ามัธยฐาน (สีแดง) มีความไวมากกว่าค่าเฉลี่ย นี่เป็นสิ่งที่ตรงกันข้ามกับภูมิปัญญาดั้งเดิมบางประการเกี่ยวกับการใช้สื่อกลางที่มีค่าต่ำโดยเฉพาะอย่างยิ่งหากการแจกแจงอาจเบ้ และมันตอกย้ำจุดที่ค่าเฉลี่ยเป็นค่าที่ทราบในขณะที่ค่ามัธยฐานนั้นมีความอ่อนไหวต่อคุณสมบัติอื่น ๆ อย่างใดอย่างหนึ่งซึ่งเป็นค่า n

การวิเคราะห์นี้คล้ายกับ Miller, J. (1988) คำเตือนเกี่ยวกับเวลาปฏิกิริยาเฉลี่ย วารสารจิตวิทยาการทดลอง: การรับรู้และการปฏิบัติของมนุษย์ , 14 (3): 539–543

REVISION

เมื่อคิดเกี่ยวกับปัญหาความเบ้ฉันคิดว่าผลกระทบต่อค่ามัธยฐานอาจเป็นเพราะในตัวอย่างเล็ก ๆ คุณมีความเป็นไปได้มากกว่าที่ค่ามัธยฐานจะอยู่ในส่วนท้ายของการแจกแจง โหมด. ดังนั้นบางทีหากมีเพียงการสุ่มตัวอย่างด้วยค่าความน่าจะเป็นของค่าผิดปกติอาจจะเกิดผลลัพธ์เดียวกัน

ดังนั้นฉันจึงคิดถึงสถานการณ์ที่อาจเกิดค่าผิดปกติและผู้ทดลองอาจพยายามกำจัดพวกเขา

หากค่าผิดปกติเกิดขึ้นอย่างสม่ำเสมอเช่นหนึ่งในการสุ่มตัวอย่างข้อมูลทุกครั้งค่ามัธยฐานจะแข็งแกร่งขึ้นเมื่อเทียบกับผลของค่าผิดปกตินี้และเรื่องราวทั่วไปเกี่ยวกับการใช้สื่อเก็บไว้

แต่นั่นไม่ใช่เรื่องปกติ

หนึ่งอาจพบค่าผิดปกติในเซลล์น้อยมากของการทดสอบและตัดสินใจใช้ค่ามัธยฐานแทนค่าเฉลี่ยในกรณีนี้ อีกครั้งค่ามัธยฐานจะแข็งแกร่งขึ้น แต่ผลกระทบที่เกิดขึ้นจริงมีขนาดค่อนข้างเล็กเนื่องจากมีค่าผิดปกติน้อยมาก นี่จะเป็นกรณีที่พบได้บ่อยกว่ากรณีข้างต้น แต่ผลของการใช้ค่ามัธยฐานอาจมีขนาดเล็กจนไม่น่าสนใจเท่าไหร่

บางทีค่าผิดปกติที่พบบ่อยอาจเป็นส่วนประกอบที่สุ่มของข้อมูล ตัวอย่างเช่นค่าเฉลี่ยจริงและส่วนเบี่ยงเบนมาตรฐานของประชากรอาจอยู่ที่ประมาณ 0 แต่มีเปอร์เซ็นต์ของเวลาที่เราสุ่มตัวอย่างจากประชากรนอกที่ที่ค่าเฉลี่ยคือ 3 พิจารณาการจำลองต่อไปนี้โดยที่ประชากรเพียงตัวอย่างถูกสุ่มตัวอย่างแตกต่างกันไป ขนาด.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

ผล

ค่ามัธยฐานเป็นสีแดงและค่าเฉลี่ยเป็นสีดำ นี่คือการค้นพบที่คล้ายกันกับการแจกแจงแบบเบ้

ในตัวอย่างที่ใช้งานได้จริงของการใช้ค่ามัธยฐานเพื่อหลีกเลี่ยงผลกระทบของค่าผิดปกติเราสามารถเกิดขึ้นกับสถานการณ์ที่การประมาณการได้รับผลกระทบจาก n มากขึ้นเมื่อใช้ค่ามัธยฐานมากกว่าเมื่อใช้ค่าเฉลี่ย


ตัวอย่างที่ดี แต่ขึ้นอยู่กับการกระจาย หากคุณใช้การแจกแจงแบบปกติหรือการแจกแจงแบบสม่ำเสมอกราฟจะแตกต่างกันมากโดยมีสองบรรทัดซ้อนทับ มันคือการแจกแจงแบบเอ็กซ์โพเนนเชียลที่สร้างความแตกต่าง
โก้

1
-1 คำตอบนี้ทำให้สับสน "ไว" กับ "อคติ"
whuber

4
ดีกว่ามาก ฉันลบคะแนนโหวตแล้ว แต่ฉันรู้สึกทึ่งกับคำอธิบายใหม่: คุณช่วยชี้ให้เห็นแหล่งที่มา - ข้อความกระดาษหรือเว็บไซต์ - ที่ทำให้การอ้างสิทธิ์ "[ค่ามัธยฐาน] ยังถือว่าแข็งแกร่งต่อการมีอคติในการแจกแจงแบบเบ้" และอธิบาย นั่นอาจหมายถึงอะไร ฉันไม่เคยเจอข้อเรียกร้องดังกล่าวมาก่อนและไม่แน่ใจว่ามันพูดอะไร
whuber

3
มันเป็นความรู้พื้นบ้านมากขึ้นสำหรับการรับมือกับเวลาตอบสนอง (รู้ว่าจะเบ้) ในการวิจัยทางจิตวิทยา ฉันใส่การอ้างอิงไปยังกระดาษที่หักล้างภูมิปัญญาพื้นบ้านในด้านจิตวิทยา (ที่ฉันรู้สึกไม่ดีเกี่ยวกับการไม่อ้างอิงก่อนหน้านี้)
จอห์น

3
BTW ทั้งๆที่คนกระดาษมิลเลอร์ (1988) ยังคงใช้เวลาปฏิกิริยาเฉลี่ยในการศึกษากับการจัดการความน่าจะเป็นที่เงื่อนไขมีจำนวนตัวอย่างที่แตกต่างกันและที่ต่ำกว่ามักจะค่อนข้างเล็ก
จอห์น

11
  • จากค่าเฉลี่ยมันง่ายในการคำนวณผลรวมเหนือทุกรายการเช่นถ้าคุณรู้รายได้เฉลี่ยของประชากรและขนาดของประชากรคุณสามารถคำนวณรายได้รวมของประชากรทั้งหมดได้ทันที

  • ค่าเฉลี่ยนั้นตรงไปตรงมาเพื่อคำนวณO(n)ความซับซ้อนของเวลา การคำนวณค่ามัธยฐานในเวลาเชิงเส้นเป็นไปได้แต่ต้องใช้ความคิดมากขึ้น ทางออกที่ชัดเจนที่ต้องใช้การเรียงลำดับมีO(n log n)ความซับซ้อนของเวลาแย่ลง

และฉันคาดการณ์ว่ามีอีกสาเหตุหนึ่งที่ทำให้ค่าเฉลี่ยได้รับความนิยมมากกว่าค่ามัธยฐาน:

  • ค่าเฉลี่ยนั้นสอนให้กับคนที่โรงเรียนมากขึ้นและอาจสอนก่อนค่ามัธยฐาน

สำหรับจุดที่ซับซ้อนเวลาของคุณขึ้นอยู่กับวิธีการเก็บค่า หากมีการจัดเรียงค่าแล้วแน่นอนว่าเป็นไปได้ที่จะคำนวณค่ามัธยฐานใน O (1) ความซับซ้อนของเวลากรณีที่เลวร้ายที่สุด
luiscubal

ฉันเห็นด้วย - การบังคับใช้ในการคำนวณเช่นผลรวมเป็นหนึ่งในข้อได้เปรียบหลักของค่าเฉลี่ย ในขณะที่ฉันมักจะชอบค่ามัธยฐานเมื่อเป้าหมายคือการอธิบายบางสิ่งบางอย่างเรามักจะใช้ค่าเฉลี่ยเมื่อมันเป็นอินพุตในการคำนวณอื่น
Jonathan

5

"เป็นที่รู้กันว่าค่ามัธยฐานสามารถทนทานต่อค่าผิดปกติได้ถ้าเป็นเช่นนั้นเราจะใช้ค่าเริ่มต้นเมื่อไรและทำไม?

ในกรณีที่มีใครรู้ว่าไม่มีค่าผิดตัวอย่างเช่นเมื่อรู้กระบวนการสร้างข้อมูล (ตัวอย่างเช่นในสถิติทางคณิตศาสตร์)

หนึ่งควรชี้ให้เห็นเล็กน้อยว่าสองปริมาณ (หมายถึงและมัธยฐาน) ไม่ได้วัดสิ่งเดียวกันและผู้ใช้ส่วนใหญ่ถามอดีตเมื่อสิ่งที่พวกเขาควรจะสนใจในหลัง (จุดนี้มีภาพประกอบที่ดีโดย การทดสอบ Wilcoxon ที่ใช้ค่ามัธยฐานซึ่งตีความได้ง่ายกว่าการทดสอบ t)

จากนั้นมีหลายกรณีที่ด้วยเหตุผลบางอย่างที่เกิดขึ้นหรืออื่น ๆ กฎระเบียบบางอย่างกำหนดให้ใช้เขาหมายถึง


2

หากความกังวลเกี่ยวกับการปรากฏตัวของค่าผิดปกติมีบางวิธีที่ตรงไปตรงมาในการตรวจสอบข้อมูลของคุณ

Outliers เกือบตามคำจำกัดความเข้ามาในข้อมูลของเราเมื่อมีการเปลี่ยนแปลงบางอย่างในกระบวนการสร้างข้อมูลหรือในกระบวนการรวบรวมข้อมูล เช่นข้อมูลสิ้นสุดสภาพเป็นเนื้อเดียวกัน หากข้อมูลของคุณไม่เหมือนกันดังนั้นค่าเฉลี่ยและค่ามัธยฐานไม่สมเหตุสมผลเนื่องจากคุณพยายามประเมินแนวโน้มกลางของชุดข้อมูลสองชุดที่แยกกัน

วิธีที่ดีที่สุดในการรับรองความเป็นเนื้อเดียวกันคือการตรวจสอบกระบวนการสร้างข้อมูลและ - คอลเลกชันเพื่อให้แน่ใจว่าข้อมูลทั้งหมดของคุณมาจากกระบวนการชุดเดียว ไม่มีอะไรเต้นพลังสมองเล็กน้อยได้ที่นี่

ในการตรวจสอบครั้งที่สองคุณสามารถเปลี่ยนเป็นหนึ่งในการทดสอบทางสถิติหลายรายการ ได้แก่ chi-squared, Q-test ของ Dixon, การทดสอบของ Grubb หรือแผนภูมิควบคุม / แผนภูมิพฤติกรรมกระบวนการ (โดยทั่วไปคือ X-bar R หรือ XmR) ประสบการณ์ของฉันคือเมื่อข้อมูลของคุณสามารถสั่งซื้อได้ตามที่รวบรวมไว้แผนภูมิพฤติกรรมการทำงานจะดีกว่าในการตรวจหาค่าผิดปกติกว่าการทดสอบที่ผิดพลาด การใช้แผนภูมินี้อาจจะค่อนข้างขัดแย้ง แต่ฉันเชื่อว่ามันสอดคล้องกับเจตนาดั้งเดิมของ Shewhart ทั้งหมดและเป็นการใช้งานที่สนับสนุนโดย Donald Wheeler อย่างชัดเจน ไม่ว่าคุณจะใช้การทดสอบค่าผิดปกติหรือแผนภูมิพฤติกรรมกระบวนการโปรดจำไว้ว่า "ค่าผิดปกติ" ที่ตรวจพบนั้นเป็นเพียงการส่งสัญญาณที่มีศักยภาพความไม่เป็นเนื้อเดียวกันที่จะต้องมีการตรวจสอบเพิ่มเติม มันไม่ค่อยสมเหตุสมผลที่จะโยนจุดข้อมูลออกไปถ้าคุณไม่มีคำอธิบายว่าทำไมพวกเขาถึงเป็นคนผิด

หากคุณกำลังใช้ R แพ็คเกจค่าผิดปกติจะมีการทดสอบค่าผิดปกติและสำหรับแผนภูมิพฤติกรรมการทำงานมีqcc , IQCC และ qAnalyst ฉันมีการตั้งค่าส่วนตัวสำหรับการใช้งานและการส่งออกของแพคเกจ qcc


2

เมื่อไหร่ที่คุณต้องการค่าเฉลี่ย

ตัวอย่างจากการเงิน:

  • ผลตอบแทนพันธบัตร:
    • ผลตอบแทนพันธบัตรเฉลี่ยจะเป็นคะแนนร้อยละไม่กี่
    • ผลตอบแทนพันธบัตรหมายถึงอาจจะต่ำหรือสูงขึ้นอยู่กับอัตราเริ่มต้นและการกู้คืนเป็นค่าเริ่มต้น ค่ามัธยฐานจะไม่สนใจทั้งหมดนี้!
    • ขอให้โชคดีที่อธิบายให้นักลงทุนของคุณ "ฉันรู้ว่ากองทุนของเราลดลง 40% ในปีนี้เพราะเกือบครึ่งหนึ่งเป็นพันธบัตรที่ถูกกู้คืนโดยไม่มีการกู้คืน แต่พันธบัตรค่ามัธยฐานของเราคืน 1%!"
  • การคืนทุน:
    • สิ่งเดียวกันในสิ่งที่ตรงกันข้าม การลงทุนเฉลี่ยของ VC หรือแองเจิลเป็นสิ่งที่จับต้องไม่ได้และผลตอบแทนทั้งหมดมาจากผู้ชนะไม่กี่คน! (หมายเหตุ / คำเตือนด้านข้าง: การประเมินการลงทุนหรือผลตอบแทนภาคเอกชนเป็นปัญหาอย่างมาก ... ระวัง!)

เมื่อสร้างพอร์ทโฟลิโอที่หลากหลายตัดสินใจว่าจะลงทุนอะไรและเท่าไหร่ค่าเฉลี่ยและความแปรปรวนร่วมของผลตอบแทนมีแนวโน้มที่จะคำนึงถึงปัญหาการเพิ่มประสิทธิภาพของคุณอย่างเด่นชัด


เห็นด้วย แต่ดูเหมือนว่าค่าเฉลี่ยหรือค่ามัธยฐานไม่ใช่โฟกัสในสถานการณ์เหล่านี้: มันค่อนข้างที่ผลรวมสามารถเป็นปริมาณที่สำคัญ โดยธรรมชาติแล้วหมายถึงว่าจะเป็นบทสรุปที่ดีกว่าค่าเฉลี่ย แต่การได้รับผลตอบแทนพันธบัตรเฉลี่ยอาจเป็นคำตอบที่ไร้สาระ แต่มีใครเสนอบ้างไหม?
Nick Cox

@NickCox สองความคิดเห็น (1) การคืนค่ามัธยฐานของค่ามัธยฐานนั้นเป็นจุดที่โง่! มีทฤษฎีที่ยอดเยี่ยมในคำตอบเหล่านี้ แต่ฉันคิดว่าเป็นตัวอย่างที่ง่ายมากอาจเพิ่มสี ในการอ้างอิงคำตอบของแฟรงก์คำว่า "ค่าเฉลี่ยนั้นถูกใช้เพราะมีความอ่อนไหวต่อข้อมูล" และการส่งคืนพอร์ตโฟลิโอให้สถานการณ์ที่เรียบง่ายและเข้าใจได้ซึ่งคุณต้องการ (2) ความแตกต่างระหว่างการดูแลเกี่ยวกับ "รวม" และการดูแลเกี่ยวกับ "หมายถึง" สามารถได้ค่อนข้างคลุมเครือ "ฉันควรลงทุนในกองทุนป้องกันความเสี่ยงหรือไม่" เพื่อตอบว่าบางทีฉันอยากรู้ว่า "กองทุนเฮดจ์ฟันด์คืออะไร
Matthew Gunn

1
(1) ฉันเห็นด้วยตามที่กล่าวไว้; คำถามของฉันเท่านั้นไม่ว่าจะแบ่งเป็นที่กล่าวถึงอย่างจริงจังในการสอนหรือการวิจัยวรรณคดีเพื่อการนี้ (2) ฉันไม่คิดว่าประเด็นของฉันช่างคลุมเครือ มันเป็นคำถามง่ายๆว่าอะไรมาก่อนคือมีความสนใจหลักในทางปฏิบัติ ฉันเห็นพาดหัว "แก๊งค์ที่ถูกจำคุกตลอดระยะเวลา 200 ปี" และฉันรู้ว่าทำไมพวกเขาถึงตีพิมพ์ แต่มันก็เป็นวิธีที่แปลกในการสรุปอย่างไรก็ตาม ในทางกลับกันมีผู้เสียชีวิต 200 รายจากภัยพิบัติเป็นครั้งแรกมากกว่า 5 ภัยพิบัติมีค่าเฉลี่ย 40 คน ปัญหา (เล็ก) กำลังเลือกคำสั่งสรุปที่เหมาะสมที่สุด
Nick Cox

@NickCox Point ถ่ายแล้ว ฉันเห็นด้วยที่คุณสนใจเกี่ยวกับการลงทุนทั้งหมดของคุณ เมื่อสร้างพอร์ตโฟลิโอและกำหนดน้ำหนักพอร์ตของหลักทรัพย์เฉพาะคุณจะต้องดูแลคุณสมบัติของผลตอบแทนของความปลอดภัยนั้น ฉันจะไม่ซื้อพันธบัตรเทศบาลทั้งหมดฉันไม่สนใจโดยตรงทั้งหมด แต่ฉันสนใจว่าผลตอบแทนเฉลี่ยของพันธบัตรเทศบาลคืออะไร คุณสมบัติความเสี่ยง / ผลตอบแทนคืออะไรหากฉันต้องเพิ่มพอร์ตโฟลิโอของฉันเล็กน้อย?
Matthew Gunn

ตกลง นั่นคือดินแดนที่นี่
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.