ควรใช้ค่าเฉลี่ยเมื่อข้อมูลเบี่ยงเบนหรือไม่


14

บ่อยครั้งที่ตำราสถิติประยุกต์ที่นำมาใช้แยกแยะความแตกต่างของค่าเฉลี่ยจากค่ามัธยฐาน (มักจะอยู่ในบริบทของสถิติเชิงพรรณนาและกระตุ้นการสรุปแนวโน้มกลางโดยใช้ค่าเฉลี่ยมัธยฐานและโหมด) โดยอธิบายว่าค่าเฉลี่ยนั้นอ่อนไหวต่อค่าผิดปกติในข้อมูลตัวอย่างและ / หรือ เพื่อการแจกแจงแบบเบ้ของประชากรและนี่ใช้เป็นข้ออ้างสำหรับการยืนยันว่าค่ามัธยฐานจะเป็นที่ต้องการเมื่อข้อมูลไม่สมมาตร

ตัวอย่างเช่น:

การวัดแนวโน้มศูนย์กลางที่ดีที่สุดสำหรับชุดข้อมูลที่กำหนดมักขึ้นอยู่กับวิธีการกระจายค่า ... เมื่อข้อมูลไม่สมมาตรค่ามัธยฐานมักเป็นตัวชี้วัดที่ดีที่สุดของแนวโน้มกลาง เพราะหมายถึงการมีความไวต่อการสังเกตมากก็จะถูกดึงไปในทิศทางของค่าข้อมูลที่ห่างไกลและเป็นผลจะจบลงที่สูงเกินจริงมากเกินไปหรือมากเกินไปกิ่ว."
-Pagano และ Gauvreau, (2000) หลักการชีวสถิติ 2 เอ็ด (พีแอนด์จีอยู่ในมือ BTW ไม่แยกพวกเขาออกต่อกัน)

ผู้เขียนกำหนด "แนวโน้มกลาง" ดังนี้: "ลักษณะการตรวจสอบที่พบบ่อยที่สุดของชุดข้อมูลคือศูนย์กลางของมันหรือจุดที่การสังเกตมักจะรวมกลุ่มกัน"

สิ่งนี้ทำให้ฉันเป็นวิธีที่ตรงไปตรงมาน้อยกว่าการพูดเพียงใช้ค่ามัธยฐานระยะเวลาเพราะใช้ค่าเฉลี่ยเมื่อข้อมูล / การแจกแจงสมมาตรเป็นสิ่งเดียวกับที่บอกว่าใช้ค่าเฉลี่ยเมื่อเท่ากับค่ามัธยฐาน แก้ไข: whuber ชี้ให้เห็นอย่างถูกต้องว่าฉันกำลังพูดถึงมาตรการที่แข็งแกร่งของแนวโน้มกลางกับค่ามัธยฐาน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องจำไว้ว่าฉันกำลังพูดถึงกรอบเฉพาะของค่าเฉลี่ยเลขคณิตเทียบกับค่ามัธยฐานในสถิติประยุกต์เบื้องต้น (ที่, โหมดกัน, มาตรการอื่น ๆ ของแนวโน้มกลางไม่ได้รับแรงจูงใจ)

แทนที่จะตัดสินว่าค่าเฉลี่ยของยูทิลิตี้ลดลงเท่าใดจากพฤติกรรมของค่ามัธยฐานเราไม่ควรเข้าใจสิ่งเหล่านี้ว่าเป็นมาตรการสองอย่างที่แตกต่างกันของการเป็นศูนย์กลาง? ในคำอื่น ๆ ที่มีความไวต่อความเบ้เป็นคุณสมบัติของค่าเฉลี่ย เราสามารถโต้แย้งได้อย่างถูกต้องว่า "ค่ามัธยฐานนั้นไม่ดีเพราะส่วนใหญ่ไม่ไวต่อความเบ้ดังนั้นควรใช้เมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น"

(โหมดค่อนข้างสมเหตุสมผลไม่ได้เกี่ยวข้องกับคำถามนี้)


3
โดยส่วนตัวแล้วฉันชอบที่จะรวมทั้งการวัดค่าเฉลี่ยและค่ามัธยฐานซึ่งจะช่วยให้ผู้อ่านไม่เพียง แต่ข้อมูลบางอย่างเกี่ยวกับแนวโน้มกลาง แต่ยังมีความคิดเกี่ยวกับการบิดเบือนข้อมูล
bdeonovic

1
บริบทและการชี้แจงบางอย่างจะช่วยปรับปรุงคำถามนี้ (1) ข้อความแนะนำภายใน (สมมุติ) ในบริบทใดที่ยืนยันว่าค่าเฉลี่ยนั้นเป็นที่ต้องการและสำหรับวัตถุประสงค์อะไร? (2) ตำราเหล่านี้มีวิธีการอย่างไร "การตัดสินยูทิลิตี้ของค่าเฉลี่ยโดยเท่าใดมันจะออกจากพฤติกรรมของค่ามัธยฐาน"? คุณสามารถให้ตัวอย่างหรือใบเสนอราคาเพื่อให้เราเข้าใจได้ดีขึ้นหรือไม่
whuber

2
ณ จุดหนึ่งคุณตีความผิด: ค่ามัธยฐานไม่ได้เป็นเพียงสถิติเดียวเท่านั้นที่มีความทนทานต่อการสังเกตการณ์ขั้นรุนแรง ดังนั้นค่าเฉลี่ยจึงถูกฟ้องบนพื้นฐานของคุณลักษณะที่ไม่พึงปรารถนา (บ่อยครั้ง) และไม่เปรียบเทียบกับค่ามัธยฐานใด ๆ แต่ฉันก็ได้เห็นความกังวลของคุณและบางทีมันอาจเกี่ยวข้องกับการพูดแบบสมมาตรของความไม่สมดุลและการดำรงอยู่ของผู้ผิดที่เกิดขึ้นในคำพูดนี้ นั่นเป็นเรื่องที่น่าเศร้าเพราะบางครั้งการมีคนนอกหมายถึงความไม่สมมาตร แต่การสนทนาไม่เป็นความจริง
whuber

7
ผู้อ่านที่นี่จะได้พบกับหัวข้อที่น่าสนใจต่อไปนี้: หากค่าเฉลี่ยมีความละเอียดอ่อนมากทำไมต้องใช้มันตั้งแต่แรก
gung - Reinstate Monica

2
ในแง่ของคำจำกัดความที่ให้ไว้สำหรับ "แนวโน้มกลาง" ดูเหมือนชัดเจนว่าทำไมค่าเฉลี่ยจะไม่เป็นประโยชน์ในการวัดเมื่อมีการเอียงหรือผิดเพี้ยน ไม่ว่าคุณจะต้องการประเมินความคิดของแนวโน้มกลางนี้จริงหรือไม่ก็เป็นเรื่องอื่น!
jsk

คำตอบ:


16

ฉันไม่เห็นด้วยกับคำแนะนำในการออกกฎ (มันไม่ธรรมดาสำหรับหนังสือทุกเล่ม)

ปัญหาที่ลึกซึ้งยิ่งขึ้น

หากคุณสนใจที่จะอนุมานเกี่ยวกับค่าเฉลี่ยของประชากรค่าเฉลี่ยตัวอย่างนั้นเป็นตัวประมาณค่าอย่างเป็นกลางและอย่างน้อยก็มีข้อดีอื่น ๆ อีกมากมาย ในความเป็นจริงดูทฤษฎีบทเกาส์ - มาร์กอฟซึ่งเป็นแบบเส้นตรงที่ดีที่สุด

หากตัวแปรของคุณเอียงอย่างหนักปัญหามาพร้อมกับ 'เชิงเส้น' - ในบางสถานการณ์ตัวประมาณเชิงเส้นทั้งหมดอาจไม่ดีดังนั้นสิ่งที่ดีที่สุดของพวกเขาอาจจะไม่น่าสนใจดังนั้นตัวประมาณค่าเฉลี่ยซึ่งไม่ตรงอาจดีกว่า แต่มันจะต้องรู้อะไรบางอย่าง (หรือค่อนข้างมาก) เกี่ยวกับการกระจาย เราไม่ได้มีความหรูหรานั้นเสมอไป

หากคุณไม่จำเป็นต้องสนใจการอนุมานเกี่ยวกับค่าเฉลี่ยของประชากร (" อายุปกติคืออะไร " พูดหรือว่ามีการเปลี่ยนตำแหน่งทั่วไปจากประชากรหนึ่งไปอีกประชากรหนึ่งซึ่งอาจจะเป็นประโยคในแง่ของสถานที่ใด ๆ หรือแม้แต่ จากการทดสอบตัวแปรหนึ่งที่มีขนาดใหญ่กว่าตัวแปรอื่นอย่างสุ่ม) จากนั้นชี้ให้เห็นว่าในแง่ของค่าเฉลี่ยประชากรนั้นไม่จำเป็นหรืออาจเป็นการต่อต้าน (ในกรณีสุดท้าย)

ดังนั้นฉันคิดว่ามันน่าจะเกี่ยวกับ:

  • คำถามจริงของคุณคืออะไร ประชากรหมายถึงสิ่งที่ดีที่จะถามเกี่ยวกับในสถานการณ์นี้หรือไม่?

  • อะไรคือวิธีที่ดีที่สุดในการตอบคำถามตามสถานการณ์ (ความเบ้ในกรณีนี้) การใช้ตัวอย่างเป็นวิธีที่ดีที่สุดในการตอบคำถามที่เราสนใจหรือไม่

อาจเป็นได้ว่าคุณมีคำถามที่ไม่เกี่ยวกับค่าเฉลี่ยของประชากรโดยตรง แต่อย่างไรก็ตามค่าเฉลี่ยตัวอย่างเป็นวิธีที่ดีในการดูคำถามเหล่านั้น ... หรือกลับกัน - คำถามอาจเกี่ยวกับค่าเฉลี่ยของประชากร แต่ค่าเฉลี่ยตัวอย่างอาจไม่ใช่วิธีที่ดีที่สุด ตอบคำถามนั้น


14

ในชีวิตจริงเราควรเลือกมาตรวัดแนวโน้มกลางจากสิ่งที่เราพยายามค้นหา และใช่บางครั้งโหมดเป็นสิ่งที่ถูกต้องที่จะใช้ บางครั้งมันหมายถึง Winsorized หรือตัดแต่ง บางครั้งความหมายทางเรขาคณิตหรือฮาร์มอนิก บางครั้งไม่มีแนวโน้มที่ดีในการวัด

หนังสือแนะนำถูกเขียนอย่างไม่ดีพวกเขาสอนว่ามีกฎการทำตำราเพื่อนำไปใช้

รับรายได้ ซึ่งมักจะเบ้มากและบางครั้งก็มีค่าผิดปกติ เรามักจะเห็นรายงาน "รายได้เฉลี่ย" แต่บางครั้งค่าผิดปกติและความเบ้มีความสำคัญ มันขึ้นอยู่กับบริบทและต้องใช้ความคิด

ฉันเขียนเพิ่มเติมเกี่ยวกับเรื่องนี้


2
ปีเตอร์ขอบคุณมากสำหรับลิงก์ไปยังโพสต์ของคุณ ฉันหวังว่าข้อความแนะนำจะใช้พื้นที่ 1 ถึง 2 หน้าซึ่งจำเป็นในการพิจารณาอย่างรอบคอบตามที่คุณให้ไว้
Alexis

4
ฉันยังไม่ได้เขียน แต่ฉันต้องการแทรกการป้องกันตำราเกริ่นนำเล็กน้อย ข้อความเกริ่นนำใด ๆ ที่พยายามให้มุมมองที่เหมาะสมยิ่งที่ผู้เชี่ยวชาญที่มีประสบการณ์จะรับรู้ว่าเป็นเช่นนั้นจะถูกทำให้เป็นไฟโดยผู้รับที่ตั้งใจเกือบทั้งหมด แน่นอนมันจะไม่ได้รับการเผยแพร่
Nick Cox

5
ความคิดเห็นที่สำคัญ: เมื่อค่าเป็นสารเติมแต่งที่ทำให้ผลรวม (เช่น) ความรู้สึกทางกายภาพค่าเฉลี่ยคือ AA โดยธรรมชาติโดยไม่คำนึงถึงการกระจายของค่าแต่ละค่า
Nick Cox

3
@ NickCox ฉันคิดว่าข้อความเบื้องต้นสามารถทำได้ดีกว่าที่พวกเขาทำ สำหรับค่าเฉลี่ยกับค่ามัธยฐานมันไม่ได้เป็นข้อโต้แย้งทางคณิตศาสตร์ - มันเป็นเรื่องสำคัญ ข้อความเบื้องต้นต้องบอกผู้ที่อ่านพวกเขาว่าพวกเขาไม่มีคุณสมบัติที่จะทำการวิเคราะห์ข้อมูล
Peter Flom - Reinstate Monica

2
@jsk โอวตกลง. ฉันคิดว่าพวกเขาจำเป็นต้องได้รับการบอกกล่าวอย่างชัดเจนในสถิติเพราะหลายคนคิดว่าพวกเขาพร้อมหลังจากการวิเคราะห์ข้อมูลในหลักสูตรเดียว แน่นอนว่าในหลาย ๆ สาขา (จิตวิทยาสังคมวิทยาการแพทย์ ฯลฯ ) ผู้คนคาดว่าจะทำการวิเคราะห์ข้อมูลหลังจาก 1, 2, หรือบางครั้ง 3 หลักสูตร ยกตัวอย่างเช่นในหลักสูตรปริญญาเอกพวกเขาคาดว่าจะเขียนวิทยานิพนธ์ เหตุใดจึงชัดเจนมากขึ้นในด้านอื่น ๆ ฉันไม่แน่ใจ.
Peter Flom - Reinstate Monica

6

แม้ว่าข้อมูลจะถูกบิดเบือน (เช่นค่าใช้จ่ายด้านการดูแลสุขภาพที่คำนวณควบคู่ไปกับการทดลองทางคลินิกซึ่งผู้ป่วยเพียงไม่กี่รายที่เสียค่าใช้จ่ายเป็นศูนย์เพราะพวกเขาเสียชีวิตหลังการลงทะเบียนและผู้ป่วยเพียงไม่กี่ราย ) ค่าเฉลี่ยอาจจะดีกว่าสำหรับค่ามัธยฐานอย่างน้อยหนึ่งเหตุผล pratical: การคูณค่าเฉลี่ยสำหรับจำนวนผู้ป่วยให้ผู้มีอำนาจตัดสินใจด้านการดูแลสุขภาพผลกระทบงบประมาณของเทคโนโลยีการดูแลสุขภาพภายใต้การศึกษา


ความคิดเห็นของ Echoing Carlo: หากคุณสนใจในจำนวนประชากรทั้งหมด (เช่นในการสุ่มตัวอย่างการตรวจสอบ) แสดงว่าคุณมีความสนใจในช่วงเวลา หากไม่มีความแตกต่างว่าการแจกแจงแบบเบ้หรือผิดเพี้ยนนั้นเป็นอย่างไรคุณแค่ต้องจัดการกับมัน คุณไม่สามารถ Winsorize ตัดแต่งมิฉะนั้นลบค่าผิดพลาดหรือบันทึกการแปลง การแบ่งชั้นสามารถช่วยอย่างมาก; ในกรณีที่มีค่าผิดปกติรุนแรงผู้ที่ควรทำเช่นนี้เป็นชั้นของตนเอง
Peter Westfall

3

ฉันคิดว่าสิ่งที่ขาดหายไปจากคำถามรวมถึงคำตอบทั้งคู่ก็คือการอภิปรายเกี่ยวกับค่าเฉลี่ยและค่ามัธยฐานในหนังสือสถิติเบื้องต้นมักจะเกิดขึ้นก่อนในบทที่เกี่ยวกับวิธีสรุปการกระจายเชิงตัวเลข ตรงข้ามกับสถิติเชิงอนุมานนี่เป็นเรื่องเกี่ยวกับการสร้างสถิติเชิงพรรณนาซึ่งจะเป็นวิธีที่มีประโยชน์ในการถ่ายทอดข้อมูลเกี่ยวกับการกระจายของข้อมูลเป็นตัวเลขเมื่อเทียบกับแบบกราฟิก บริบทที่สิ่งนี้เกิดขึ้นเป็นส่วนของสถิติเชิงพรรณนาของรายงานหรือบทความวารสารซึ่งโดยทั่วไปจะไม่มีที่ว่างสำหรับบทสรุปแบบกราฟิกของตัวแปรทั้งหมดในชุดข้อมูลของคุณ หากการแจกแจงเบ้ดูเหมือนว่าเหมาะสมในบริบทนี้เพื่อเลือกค่ามัธยฐานมากกว่าค่าเฉลี่ย หากการแจกแจงสมมาตรโดยไม่มีค่าผิดปกติ


1
ประเด็นของคุณเกี่ยวกับสถิติเชิงพรรณนาและเชิงอนุมานนั้นคุ้มค่า แต่คุณกำลังพูดอย่างมีประสิทธิภาพ (สำหรับสถิติเชิงพรรณนา) "ใช้ค่าเฉลี่ยเมื่อมันเป็นค่ามัธยฐานเท่านั้น" หากการแจกแจงเบ้ค่ามัธยฐานแล้วงานที่น่าสงสารของการแสดงแนวคิดของต่อหัวใช่มั้ย ดังนั้นมันไม่ถูกต้องที่จะรับตำแหน่ง "ใช้ค่ามัธยฐานเมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น" นั่นเป็นเพียงการสุ่มตัวอย่างและดูเหมือนว่าจะให้ความสนใจโดยตรงจากความหมายที่สำคัญของมาตรการเหล่านี้ (สำหรับคนที่เรียนรู้พวกเขา)
Alexis

1
เป้าหมายไม่ได้แสดงแนวคิดของการต่อหัว? พูดว่าใคร ทำไมทึกทักว่าไม่ใช่เป้าหมาย?
Alexis

1
ฉันไม่เห็นความหยาบคายใด ๆ หรือ "การแสดงที่น่าตกใจ" มาจาก OP ... เพียงแค่พูดใน ...
Nick Stauner

1
ฉันไม่เห็นว่ามันสำคัญว่าคุณกำลังทำสถิติเชิงอนุมานหรือเชิงพรรณนาในกรณีนี้ หากการวัดเชิงพรรณนาที่เหมาะสมของแนวโน้มกลางคือค่ามัธยฐานการอนุมานควรถูกวาดลงบนค่ามัธยฐาน; ถ้าค่าเฉลี่ยก็หมายความว่า หากไม่มีการวัดที่สื่อความหมายก็ไม่สมเหตุสมผล
Peter Flom - Reinstate Monica

1
@PeterFlom เกี่ยวกับในกรณีที่เป้าหมายสุดท้ายไม่ได้อนุมาน? ฉันยอมรับว่าความเหมาะสมของสถิติเชิงพรรณนาขึ้นอยู่กับเหตุผลในการสร้างสถิติ ความคิดที่ว่าเป็นไปได้ว่า "ไม่มีการวัดเชิงอธิบายที่สมเหตุสมผล" ดูเหมือนว่าเป็นการบ่งบอกว่าสถิติเชิงพรรณนาไม่สามารถมีความหมายอย่างแท้จริง ฉันจะยืนยันว่าในเกือบทุกกรณีค่ามัธยฐานทำให้รู้สึกเป็นตัวชี้วัดของศูนย์กลางของการกระจายตามคำนิยาม ไม่ว่าจะเหมาะสมหรือไม่สำหรับวัตถุประสงค์อื่นก็เป็นอีกคำถามหนึ่ง
jsk
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.