ทำไมค่าเฉลี่ยมีแนวโน้มที่จะมีความเสถียรในตัวอย่างที่แตกต่างจากค่ามัธยฐาน?


22

ส่วน 1.7.2 ของการค้นพบสถิติการใช้ Rโดย Andy Fields และอื่น ๆ ในขณะที่แสดงรายการคุณธรรมของค่าเฉลี่ย vs มัธยฐาน:

... ค่าเฉลี่ยมีแนวโน้มที่จะคงที่ในกลุ่มตัวอย่างที่แตกต่างกัน

สิ่งนี้หลังจากอธิบายถึงคุณงามความดีของคนมัธยฐานเช่น

... ค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดที่ปลายด้านหนึ่งของการกระจาย ...

เนื่องจากค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดฉันจึงคิดว่ามันจะมีเสถียรภาพมากขึ้นในกลุ่มตัวอย่าง ดังนั้นฉันจึงงงงวยโดยการยืนยันของผู้เขียน เพื่อยืนยันว่าฉันใช้การจำลอง - ฉันสร้างตัวเลขสุ่ม 1M และสุ่มตัวอย่าง 100 ตัวเลข 1,000 ครั้งและคำนวณค่าเฉลี่ยและค่ามัธยฐานของแต่ละตัวอย่างแล้วคำนวณ SD ของค่าเฉลี่ยตัวอย่างและค่ามัธยฐาน

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

ในขณะที่คุณสามารถดูวิธีการกระจายอย่างแน่นหนากว่าค่ามัธยฐาน

ป้อนคำอธิบายรูปภาพที่นี่

ในภาพที่แนบมานั้นฮิสโทแกรมสีแดงมีไว้สำหรับคนกลาง - อย่างที่คุณเห็นมันมีความสูงน้อยกว่าและมีหางที่อ้วนขึ้นซึ่งยืนยันการยืนยันของผู้แต่ง

ฉันรู้สึกงุนงงกับสิ่งนี้แม้ว่า! ค่ามัธยฐานที่เสถียรกว่ามีแนวโน้มที่จะแตกต่างกันมากในที่สุดในตัวอย่างอย่างไร ดูเหมือนขัดแย้ง! ข้อมูลเชิงลึกใด ๆ ที่จะได้รับการชื่นชม


1
ใช่ แต่ลองด้วยการสุ่มตัวอย่างจาก nums <- rt (n = 10 ** 6, 1.1) การแจกแจง t1.1 นั้นจะให้ค่ามาก ๆ ไม่จำเป็นต้องสมดุลระหว่างบวกและลบ (เช่นเดียวกับโอกาสที่จะได้รับค่าสุดขั้วบวกอีกค่าหนึ่งเป็นค่าลบสุดขั้วเพื่อปรับสมดุล) ซึ่งจะทำให้เกิดความแปรปรวนมหึมาในx¯x¯

10
ข้อความของผู้เขียนไม่เป็นความจริง (เราได้รับคำถามมากมายที่นี่เกี่ยวกับข้อผิดพลาดในหนังสือของผู้แต่งดังนั้นนี่ไม่ใช่เรื่องน่าประหลาดใจ) ตัวอย่างมาตรฐานพบได้ใน"การแจกแจงแบบคงที่"ซึ่งหมายถึงอะไรก็ตาม แต่ "มั่นคง" (ในแง่ที่สมเหตุสมผลของ คำศัพท์) และค่ามัธยฐานนั้นเสถียรกว่ามาก
whuber

1
"... ค่าเฉลี่ยมีแนวโน้มที่จะคงที่ในกลุ่มตัวอย่างที่แตกต่างกัน" เป็นคำสั่งที่ไร้สาระ "ความมั่นคง" ไม่ได้ถูกนิยามไว้อย่างดี ค่าเฉลี่ย (ตัวอย่าง) ค่อนข้างแน่นอนในตัวอย่างเดียวเนื่องจากเป็นปริมาณที่ไม่สุ่ม หากข้อมูลเป็น "ไม่แน่นอน" (ตัวแปรสูงมาก) ค่าเฉลี่ยก็คือ "ไม่แน่นอน"
AdamO

1
คำถามนี้น่าจะได้รับคำตอบจากการวิเคราะห์แบบละเอียดที่มีให้ที่stats.stackexchange.com/questions/7307โดยที่คำถามเดียวกันถูกถามในลักษณะที่เฉพาะเจาะจง
whuber

2
ลองเปลี่ยนด้วยrnorm rcauchy
Eric Towers

คำตอบ:


3

ค่ามัธยฐานนั้นแข็งแกร่งที่สุดสำหรับค่าผิดปกติ แต่มีความไวสูงต่อเสียงรบกวน หากคุณมีเสียงรบกวนเล็กน้อยในแต่ละจุดมันจะเข้าสู่ค่ามัธยฐานที่ไม่ได้รับการบันทึกตราบใดที่เสียงนั้นเล็กพอที่จะไม่เปลี่ยนลำดับสัมพัทธ์ของคะแนน สำหรับค่าเฉลี่ยมันเป็นวิธีอื่น ๆ เสียงดังเฉลี่ยโดยเฉลี่ย แต่ค่าผิดปกติเพียงครั้งเดียวสามารถเปลี่ยนค่าเฉลี่ยโดยพลการ

การทดสอบของคุณส่วนใหญ่วัดความทนทานต่อเสียงรบกวน แต่คุณสามารถสร้างเสียงที่ค่ามัธยฐานทำงานได้ดีขึ้น หากคุณต้องการตัวประมาณค่าที่มีความทนทานต่อทั้งค่าผิดปกติและเสียงรบกวนให้ทิ้งส่วนที่สามและอันดับที่สามและค่าเฉลี่ยที่เหลือ


มีชื่อเฉพาะสำหรับอัลกอริทึมนี้มากกว่า "ความหมายที่ถูกตัด 33% " หรือไม่?
เดวิดแครี

25

ตามที่ @whuber และคนอื่น ๆ ได้กล่าวไว้แถลงการณ์ไม่เป็นความจริงโดยทั่วไป และถ้าคุณยินดีที่จะหยั่งรู้ได้มากขึ้น - ฉันไม่สามารถติดตามการคำนวณทางคณิตศาสตร์รอบ ๆ ที่นี่ได้ - คุณอาจดูวิธีอื่น ๆ และค่ามัธยฐานคงที่หรือไม่ สำหรับตัวอย่างเหล่านี้สมมติว่าเป็นจำนวนคี่เพื่อที่ฉันจะสามารถรักษาคำอธิบายให้สอดคล้องและเรียบง่าย

  1. ลองนึกภาพคุณมีการแพร่กระจายของคะแนนในบรรทัดหมายเลข ทีนี้ลองคิดดูว่าคุณได้รับคะแนนทั้งหมดที่อยู่ตรงกลางแล้วเลื่อนขึ้นไปเป็น 10 เท่าของมูลค่า ค่ามัธยฐานไม่เปลี่ยนแปลงค่าเฉลี่ยเคลื่อนที่อย่างมีนัยสำคัญ ดังนั้นค่ามัธยฐานจึงดูมีเสถียรภาพมากขึ้น

  2. ทีนี้ลองจินตนาการว่าจุดเหล่านี้กระจายออกไปพอสมควร เลื่อนจุดศูนย์กลางขึ้นและลง การย้ายหนึ่งหน่วยการเปลี่ยนแปลงค่ามัธยฐานโดยหนึ่ง แต่ย้ายค่าเฉลี่ย ค่ามัธยฐานในขณะนี้ดูเหมือนจะน้อยกว่าและมีความไวต่อการเคลื่อนไหวเล็ก ๆ ของจุดเดียว

  3. ตอนนี้ลองนึกภาพจุดสูงสุดแล้วเคลื่อนอย่างราบรื่นจากจุดสูงสุดไปยังจุดต่ำสุด ค่าเฉลี่ยก็จะราบรื่นเช่นกัน แต่ค่ามัธยฐานจะไม่เคลื่อนไหวอย่างต่อเนื่อง: มันจะไม่เคลื่อนที่เลยจนกว่าจุดสูงของคุณจะต่ำกว่าค่ามัธยฐานก่อนหน้าจากนั้นมันจะเริ่มตามจุดจนกว่ามันจะต่ำกว่าจุดถัดไปจากนั้นค่ามัธยฐานจะไปที่จุดนั้น ไม่ต้องขยับในขณะที่คุณเลื่อนจุดลง [แก้ไขต่อความคิดเห็น]

การเปลี่ยนแปลงจุดต่าง ๆ ของคุณทำให้ค่าเฉลี่ยหรือค่ามัธยฐานดูไม่ราบรื่นหรือเสถียรในบางแง่มุม คณิตศาสตร์ที่น่าเกรงขามที่นี่แสดงให้คุณเห็นการแจกแจงซึ่งคุณสามารถสุ่มตัวอย่างซึ่งตรงกับการทดลองของคุณมากขึ้น แต่หวังว่าสัญชาตญาณนี้จะช่วยได้เช่นกัน


1
เกี่ยวกับรายการที่ 3: ค่ามัธยฐานจะไม่ราบรื่นเช่นกัน? [1, 3, 5, 7, 9]บอกว่าชุดแรกของจุดคือ 5ในขั้นต้นเฉลี่ยคือ ที่จะยังคงแบ่งจนถึงจุดที่ห้า (ต้น9) ลดลงต่ำกว่า5จุดที่แบ่งได้อย่างราบรื่นจะเป็นไปตามจุดที่ห้าในขณะที่มันลดลงจนฮิตจุดที่ค่าเฉลี่ยจะอยู่ที่3 3ดังนั้นแม้ว่าจุดที่กำหนดค่ามัธยฐานคือ "กระโดด" (จากจุดที่สามไปยังจุดที่ห้าไปยังจุดที่สอง) ค่าที่แท้จริงของค่ามัธยฐานไม่มีการข้าม / ไม่ต่อเนื่อง
Scott M

@ScottM คุณดูเหมือนถูก ไม่แน่ใจว่าทำไมฉันคิดว่ามันจะกระโดด ฉันจะตั้งชื่อใหม่เมื่อมีโอกาส
เวย์น

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR. ค่าความแปรปรวนแบบซีโมติคของค่าเฉลี่ยตัวอย่างและค่ามัธยฐานตัวอย่างจะได้รับตามลำดับโดย:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

ดังนั้นเราจึงมี:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


! น่ากลัว ขอบคุณ
Alok Lal

4

ความคิดเห็น: เพียงเพื่อสะท้อนกลับการจำลองของคุณโดยใช้การกระจายที่ SD ของวิธีการและค่ามัธยฐานมีผลตรงข้าม:

โดยเฉพาะการnumsอยู่ในขณะนี้จากการกระจายเลซ (ที่เรียกว่า 'คู่ชี้แจง') ซึ่งสามารถจำลองเป็นความแตกต่างของทั้งสองกระจายชี้แจงกับอัตราเดียว (ที่นี่อัตราเริ่มต้น 1) [อาจเห็นWikipediaเกี่ยวกับการแจกแจงแบบ Laplace]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

ป้อนคำอธิบายรูปภาพที่นี่

หมายเหตุ:เป็นไปได้อีกง่ายแน่ชัดในการเชื่อมโยง @ whuber ของเป็น Cauchy rt(10^6, 1)ซึ่งสามารถจำลองการกระจายเสื้อนักเรียนกับหนึ่งระดับของเสรีภาพ อย่างไรก็ตามหางของมันหนักมากจนทำให้ฮิสโตแกรมที่สวยงามนั้นเป็นปัญหาได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.