มีสูตร“ มัธยฐาน” มากกว่าหนึ่งสูตรหรือไม่?

ในงานของฉันเมื่อบุคคลอ้างถึงค่า "หมายถึง" ของชุดข้อมูลพวกเขามักจะอ้างถึงค่าเฉลี่ยเลขคณิต (เช่น "เฉลี่ย" หรือ "คาดหวังค่า") ถ้าฉันให้ค่าเฉลี่ยทางเรขาคณิตคนอาจจะคิดว่าฉันกำลังหยามหรือไม่เป็นประโยชน์เนื่องจากคำจำกัดความของ "หมายถึง" เป็นที่รู้จักกันล่วงหน้า

ฉันพยายามที่จะตรวจสอบว่ามีคำจำกัดความของ "ค่ามัธยฐาน" หลายชุดของข้อมูลหรือไม่ ตัวอย่างเช่นหนึ่งในคำจำกัดความที่จัดทำโดยเพื่อนร่วมงานสำหรับการค้นหาค่ามัธยฐานของชุดข้อมูลที่มีองค์ประกอบจำนวนคู่จะเป็น:

อัลกอริทึม 'A'

หารจำนวนขององค์ประกอบสองปัดเศษลง
ค่านั้นคือดัชนีของค่ามัธยฐาน
5คือสำหรับชุดต่อไปนี้เฉลี่ยจะเป็น
[4, 5, 6, 7]

สิ่งนี้ดูเหมือนจะสมเหตุสมผลแม้ว่าลักษณะการปัดเศษลงจะดูเป็นเรื่องเล็กน้อย

อัลกอริทึม 'B'

ไม่ว่าในกรณีใดเพื่อนร่วมงานคนอื่นได้เสนออัลกอริทึมแยกต่างหากซึ่งอยู่ในหนังสือเรียนสถิติของเขา (ต้องได้รับชื่อและผู้แต่ง):

หารจำนวนองค์ประกอบด้วย 2 และเก็บสำเนาของเลขจำนวนเต็มที่ปัดเศษขึ้นและปัดเศษลง ชื่อพวกเขาและn_lon_hi
ใช้ค่าเฉลี่ยขององค์ประกอบที่และn_lon_hi
(5+6)/2 = 5.5คือสำหรับชุดต่อไปนี้เฉลี่ยจะเป็น
[4, 5, 6, 7]

ดูเหมือนว่าผิด5.5ในกรณีนี้ค่ามัธยฐานในกรณีนี้จริง ๆ แล้วไม่ได้อยู่ในชุดข้อมูลดั้งเดิม เมื่อเราสลับอัลกอริทึม 'A' สำหรับ 'B' ในโค้ดทดสอบบางอันมันก็แย่มาก

คำถาม

มี "ชื่อ" อย่างเป็นทางการสำหรับทั้งสองวิธีในการคำนวณค่ามัธยฐานของชุดข้อมูลหรือไม่ เช่น "ค่ามัธยฐานที่น้อยกว่าจาก --- สอง" กับ "ค่าเฉลี่ย - กลาง - องค์ประกอบ - และ - สร้าง - ค่าเฉลี่ยข้อมูลใหม่"?

median definition

— เมฆ
แหล่งที่มา

ฉันไม่เคยเห็นอัลกอริทึม "A" คิดว่าเป็นค่ามัธยฐาน มันไม่ควรเป็นปัญหาที่สถิติเชิงพรรณนาของแนวโน้มกลางของข้อมูลไม่ได้อยู่ในกลุ่มของข้อมูล: หลังจากทั้งหมดค่าเฉลี่ยส่วนใหญ่ไม่ได้อยู่ในข้อมูลเช่นกัน คุณสมบัติพื้นฐานที่มากกว่าที่เราต้องการให้ค่ามัธยฐานคือว่ามันจะไม่เปลี่ยนแปลงเมื่อลำดับของข้อมูลถูกย้อนกลับเนื่องจากการเรียงลำดับข้อมูลจากน้อยที่สุดไปหามากที่สุดหรือใหญ่สุดเป็นเรื่องเล็กโดยพลการ ด้วยเหตุนี้ผู้เขียนส่วนใหญ่จึงกำหนดค่ามัธยฐานเช่นเดียวกับในอัลกอริทึม "B" เพราะนั่นเป็นขั้นตอนที่ไม่แปรปรวนของคำสั่งคงที่ที่ง่ายที่สุด

— whuber

อัลกอริทึม @whuber 'A' บางครั้งเรียกว่าต่ำเฉลี่ย นอกจากนี้ยังมีหลักสูตรค่ามัธยฐานที่สอดคล้องกัน โดยทั่วไปค่ามัธยฐานเป็นค่าเฉลี่ยของทั้งสอง (ซึ่งอาจหรือไม่อาจเป็นหนึ่งองค์ประกอบจากชุดค่ามัธยฐานจะคำนวณมากกว่า)

— user603

เวลาและสถานที่ที่ดีในการแสดงความคิดเห็นซ้ำ ๆ ว่าค่ากลางสองค่าในตัวอย่างที่เรียงลำดับด้วยจำนวนการสังเกตที่เท่ากันเช่น 3 และ 4 ใน 1, 2, 3, 4, 5, 6 - ถือว่าเป็นนักแสดงตลก (เหน็บอย่างอิสระโดย SM Stigler, R. Koenker และไม่ต้องสงสัยเลยว่าคนอื่น ๆ )

— Nick Cox

อัลกอริทึมทั้งสองไม่ได้ขาดขั้นตอนสำคัญในการเรียงลำดับข้อมูลหรือไม่

— Emil

หากคุณต้องการ "ค่ามัธยฐาน" ของคุณให้เป็นองค์ประกอบของชุดข้อมูลเสมอคุณอาจกำลังมองหาเม็ดเงินจริง

— Ilmari Karonen

คำตอบ:

TL; DR - ฉันไม่ทราบชื่อเฉพาะที่มอบให้แก่ผู้ประมาณค่าเฉลี่ยของกลุ่มตัวอย่าง วิธีการประเมินสถิติตัวอย่างจากข้อมูลบางอย่างค่อนข้างยุ่งและทรัพยากรต่าง ๆ ให้คำจำกัดความที่แตกต่างกัน

ใน Hogg, McKean และ Craig's Introduction to Mathematical Statisticsผู้แต่งให้คำจำกัดความของการสุ่มเลือกกลุ่มตัวอย่างแต่เฉพาะในกรณีที่มีตัวอย่างจำนวนคี่! ผู้เขียนเขียน

$n$ $Y_{(n+1)/2}$

$Y_i$ คือ $i$ ฐานข้อมูลที่เล็กที่สุด)

แต่สิ่งนี้ดูเหมือนจะ จำกัด อย่างไม่จำเป็น ฉันต้องการที่จะสามารถกำหนดค่ามัธยฐานของตัวอย่างแบบสุ่มสำหรับคู่หรือคี่ $n$ . ยิ่งกว่านั้นฉันต้องการให้ค่ามัธยฐานเป็นเอกลักษณ์ จากข้อกำหนดสองข้อนี้ฉันต้องตัดสินใจเกี่ยวกับวิธีหาค่ามัธยฐานตัวอย่างเฉพาะที่ดีที่สุด ทั้งอัลกอริทึม A และอัลกอริทึม B เป็นไปตามข้อกำหนดเหล่านี้ การนำข้อกำหนดเพิ่มเติมมาใช้อาจช่วยขจัดข้อใดข้อหนึ่งหรือทั้งสองอย่างออกจากการพิจารณา

อัลกอริทึม B มีคุณสมบัติที่ครึ่งหนึ่งของข้อมูลลดลงมากกว่าค่าและครึ่งหนึ่งของข้อมูลตกต่ำกว่าค่า ในแง่ของความหมายของค่ามัธยฐานของตัวแปรสุ่มมันดูดี

ไม่ว่าตัวประมาณค่าเฉพาะจะแบ่งการทดสอบหน่วยหรือไม่เป็นคุณสมบัติของการทดสอบหน่วย - การทดสอบหน่วยที่เขียนกับตัวประมาณเฉพาะนั้นไม่จำเป็นต้องถือไว้เมื่อคุณแทนที่ตัวประมาณอื่น ในกรณีที่เหมาะสมการทดสอบหน่วยถูกเลือกเพราะมันสะท้อนให้เห็นถึงความต้องการที่สำคัญขององค์กรของคุณไม่ใช่เพราะการโต้แย้งหลักคำสอนมากกว่าคำจำกัดความ

— Sycorax พูดว่า Reinstate Monica
แหล่งที่มา

(+1) เราสามารถเพิ่มได้ด้วย (1) เมื่อค่ามาพร้อมกับน้ำหนักความหมายของค่ามัธยฐานในหลักการและในทางปฏิบัติจะต้องครอบคลุมเช่นกัน (โดยนัยแล้วคำตอบจนถึงน้ำหนักทั้งหมดเท่ากันดังนั้นจึงไม่มีสาระสำคัญ) ในขณะที่การแก้ไขเชิงเส้นตรงในผลรวมสะสมของน้ำหนักนั้นง่ายที่สุดมีสถานการณ์ที่การแก้ไขแบบอื่นอาจเข้าท่า (2) คำจำกัดความที่เข้มงวดมากขึ้นของค่ามัธยฐานมักมีจุดประสงค์เพื่อให้ครอบคลุมการกระจายแบบไม่ต่อเนื่องและแบบต่อเนื่องและแบบไฮบริดเหมือนกัน

— Nick Cox

สิ่งที่ @Sycorax พูด

ตามความเป็นจริงแล้วมีคำจำกัดความของควอนไทล์ทั่วไปหลายประการที่น่าประหลาดใจ Hyndman & Fan (1996 นักสถิติชาวอเมริกัน )ให้ภาพรวมว่า AFAIK ยังคงครอบคลุม ประเภทต่าง ๆ ไม่มีชื่อทางการ คุณอาจต้องชัดเจนว่าคุณใช้ประเภทใด (มักจะไม่ได้สร้างความแตกต่างใหญ่กับชุดข้อมูลที่มีขนาดจริง)

โปรดทราบว่าเป็นที่ยอมรับกันโดยทั่วไปว่ามีค่าที่ไม่ปรากฏในชุดข้อมูลเป็นค่ามัธยฐานเช่น 5.5 เป็นค่ามัธยฐานสำหรับ (4, 5, 6, 7) นี่คือพฤติกรรมเริ่มต้นสำหรับ R:

> median(4:7)
[1] 5.5

R's median()โดยค่าเริ่มต้นใช้ประเภท 7 ของการจำแนกประเภทของ Hyndman & Fan

— S. Kolassa - Reinstate Monica
แหล่งที่มา

+1 สำหรับ "มักจะไม่ได้สร้างความแตกต่างอย่างมากกับชุดข้อมูลที่มีขนาดจริง" ฉันจะขโมยสิ่งนั้นแทน "ตามปกติของฉัน" ถ้ามันสร้างความแตกต่างอย่างมีนัยสำคัญคุณอาจต้องการข้อมูลเพิ่มเติม " :)

— Jason

หากคุณมีตัวแปรไบนารีที่มีค่า 0, 1 (พูด) และมีจำนวนเท่ากัน 0s และ 1s (หมายถึงใกล้ถึง 0.5) ขนาดตัวอย่างที่มีขนาดใหญ่จะไม่จำเป็นต้องหยุดค่ามัธยฐานที่รายงานกลับไปมาระหว่าง 0, 0.5 และ 1 Mosteller and Tukey ( การวิเคราะห์ข้อมูลและการถดถอย 1977) อ้างถึงการกระจาย bimodal และสมมาตรเกือบเป็นอย่างยิ่งเช่นกรณีที่ค่ามัธยฐานอาจไม่ทำงานโดยเฉพาะอย่างยิ่ง

— Nick Cox

ในmadฟังก์ชั่นของ R จะใช้คำว่า "lo-median" เพื่ออธิบายอัลกอริทึมของคุณ "hi-median" เพื่ออธิบายการปัดเศษแทนและเพียงแค่ "มัธยฐาน" เพื่ออธิบายอัลกอริทึม B ของคุณ (ซึ่งตามที่คนอื่น ๆ คำจำกัดความที่พบบ่อยที่สุด)

อยากรู้อยากเห็นไม่มีตัวเลือกดังกล่าวในmedian()ฟังก์ชั่นของ R ! (แต่อาร์quantile()มีtypeการควบคุมที่ดี)

— Darren Cook
แหล่งที่มา