ทำไมการกระจายตัวจึงใช้งานง่ายกว่าศูนย์กลาง


11

ดูเหมือนว่าจะมีบางอย่างในความเข้าใจของมนุษย์ของเราที่สร้างความยากลำบากในการเข้าใจความแปรปรวน ในความหมายที่แคบคำตอบคือทันที: การยกกำลังสองทำให้เราหลุดพ้นจากความเข้าใจที่สะท้อนกลับของเรา แต่มันเป็นเพียงความแปรปรวนที่นำเสนอปัญหาหรือเป็นความคิดทั้งหมดของการแพร่กระจายในข้อมูลหรือไม่ เราขอความคุ้มครองในช่วงหรือเพียงแค่ระบุค่าต่ำสุดและค่าสูงสุด แต่เราเพียงแค่หลีกเลี่ยงความยากลำบากจริงหรือ ในความหมาย (โหมดหรือค่ามัธยฐาน) เราพบศูนย์กลางการสรุป ... การทำให้เข้าใจง่าย ความแปรปรวนกระจายไปรอบ ๆ และทำให้พวกเขาอึดอัด มนุษย์ดึกดำบรรพ์จะใช้ประโยชน์จากค่าเฉลี่ยในการล่าสัตว์โดยการใช้รูปสามเหลี่ยมกับการสวดอ้อนวอน แต่ฉันคิดว่ามันช้ากว่ามากที่เรารู้สึกถึงความจำเป็นในการหาปริมาณการแพร่กระจายของสิ่งต่าง ๆ ในความเป็นจริงคำแปรปรวนเป็นครั้งแรกโดย Ronald Fisher เมื่อเร็ว ๆ นี้ในปี 1918ในกระดาษ "ความสัมพันธ์ระหว่างญาติในการสนับสนุนของการถ่ายทอดทางพันธุกรรม Mendelian"

คนส่วนใหญ่ที่ติดตามข่าวจะได้ยินเรื่องราวของคำพูดที่โชคร้ายของLarry Summers เกี่ยวกับความถนัดทางคณิตศาสตร์ตามเพศซึ่งอาจเกี่ยวข้องกับการจากไปของเขาจากฮาร์วาร์ด โดยสรุปแล้วเขาเสนอความแปรปรวนที่กว้างขึ้นในการกระจายความสามารถทางคณิตศาสตร์ในเพศชายเมื่อเทียบกับเพศหญิงแม้ว่าเพศทั้งสองจะมีค่าเฉลี่ยเท่ากัน โดยไม่คำนึงถึงความเหมาะสมหรือผลกระทบทางการเมืองนี้ดูเหมือนว่าจะได้รับการพิสูจน์ในทางวิทยาศาสตร์

ที่สำคัญกว่านั้นบางทีความเข้าใจในประเด็นต่าง ๆ เช่นการเปลี่ยนแปลงสภาพภูมิอากาศ - โปรดยกโทษให้ฉันเมื่อนำหัวข้อที่อาจนำไปสู่การอภิปรายที่ไม่มีเหตุผลสำหรับการอภิปรายโดยประชาชนทั่วไปอาจได้รับความช่วยเหลือจากความคุ้นเคยที่ดีขึ้นกับแนวคิดเรื่องความแปรปรวน

ปัญหาที่ได้รับการประกอบเมื่อเราพยายามที่จะเข้าใจความแปรปรวนดังแสดงในโพสต์นี้เนื้อเรื่องที่ดีและคำตอบที่มีสีสันโดย @whuber ที่นี่

มันอาจจะดึงดูดการยกเลิกคำถามนี้ทั่วไปเกินไป แต่ก็เป็นที่ชัดเจนว่าเราจะคุยทางอ้อมเช่นเดียวกับในโพสต์นี้ที่คณิตศาสตร์เล็กน้อย แต่แนวคิดช่วยในการเป็นที่เข้าใจยาก belying การยอมรับสะดวกสบายมากขึ้นของช่วงเป็น ตรงข้ามกับความแปรปรวนของแนวคิดที่เหมาะสมยิ่งขึ้น

ในจดหมายจากฟิชเชอร์ถึง EBFordซึ่งอ้างถึงการโต้เถียงเกี่ยวกับความสงสัยของเขาเกี่ยวกับการทดลองของ Mendelian เราอ่านว่า: "ตอนนี้เมื่อข้อมูลมีการแกล้งฉันรู้ดีว่าคนทั่วไปประเมินความถี่ของการเบี่ยงเบนโอกาสน้อยเกินไป แนวโน้มที่จะทำให้พวกเขาเห็นด้วยกับความคาดหวังอยู่เสมอ ... ความเบี่ยงเบน [ในข้อมูลของ Mendel] นั้นเล็กมากอย่างน่าตกใจ " ชาวประมงผู้ยิ่งใหญ่นั้นมีความสงสัยอย่างมากเกี่ยวกับความแตกต่างเล็ก ๆ ในตัวอย่างเล็ก ๆ ที่เขาเขียนว่า : "มันยังมีความเป็นไปได้ในหมู่คนอื่น ๆ ที่เมนเดลถูกหลอกโดยผู้ช่วยบางคน

และเป็นไปได้อย่างยิ่งที่ความเอนเอียงนี้มีต่อการเข้าใจหรือการเข้าใจผิดยังคงมีอยู่ในปัจจุบัน ถ้าเป็นเช่นนั้นมีคำอธิบายใด ๆ หรือไม่ว่าทำไมเราถึงคุ้นเคยกับแนวคิดการเป็นศูนย์กลางมากกว่าการกระจายตัว มีอะไรที่เราสามารถทำได้เพื่อทำให้ความคิดเป็นเรื่องภายใน?

แนวคิดบางอย่างที่เรา "เห็น" ในพริบตาแล้วเราก็ทำไม่ได้ แต่เราก็ยอมรับมันและก้าวต่อไป ตัวอย่างเช่นหรือแต่เราไม่จำเป็นต้องรู้เกี่ยวกับตัวตนเหล่านี้เพื่อตัดสินใจในชีวิตประจำวันของเรา เช่นเดียวกันไม่เป็นความจริงของความแปรปรวน ดังนั้นไม่ควรใช้งานง่ายกว่านี้หรือไม่อีผมπ+1=0E=mc2

Nassim Taleb ใช้โชคของเขาในการรับรู้ความเข้าใจที่ไม่สมบูรณ์ของความแปรปรวนของการใช้ประโยชน์จากวิกฤตครั้งนี้และพยายามทำให้แนวคิดที่เข้าใจได้ง่ายสำหรับคนที่มีประโยคเช่น "ความแปรปรวนของความแปรปรวนคือญาณวิทยา ตัวชี้วัดของการขาดความรู้เกี่ยวกับการขาดความรู้ของค่าเฉลี่ย "- ใช่มีบริบทมากขึ้นเพื่อคำหนึ่งนี้ ... และเครดิตของเขาเขาได้ทำให้มันง่ายขึ้นด้วยความคิดขอบคุณพระเจ้าตุรกี หนึ่งอาจยืนยันว่ากุญแจสำคัญในการลงทุนคือการเข้าใจความแปรปรวน (และความแปรปรวนร่วม)

แล้วทำไมลื่นล่ะและจะแก้ไขได้อย่างไร? หากไม่มีสูตร ... แค่ใช้สัญชาตญาณในการรับมือกับความไม่แน่นอนเป็นเวลาหลายปี ... ฉันไม่รู้คำตอบ แต่มันไม่ใช่ทางคณิตศาสตร์ (จำเป็นต้องมีนั่นคือ): ยกตัวอย่างเช่นฉันสงสัยว่าความคิดเกี่ยวกับ kurtosis รบกวนความแปรปรวน ในโครงเรื่องต่อไปนี้เรามีสองฮิสโทแกรมซ้อนทับกับความแปรปรวนเดียวกัน แต่ปฏิกิริยากระตุกหัวเข่าของฉันก็คือคนที่มีหางที่ยาวที่สุดและยอดเขาที่สูงที่สุด (ความโด่งที่สูงกว่า) ก็คือ "กางออก" มากกว่า:


2
ความแปรปรวนนั้นยากที่จะเข้าใจเพราะฉันคิดว่ามันกำลังสอง ผู้คนดูเหมือนจะไม่ลำบากกับค่าเบี่ยงเบนสัมบูรณ์ที่มากเกินไป (ฉันมักจะใช้ความคิดนั้นในการทำงานให้ได้ค่าเบี่ยงเบนมาตรฐานเช่น.)
gung - Reinstate Monica

เป็นการยากที่จะเข้าใจสิ่งที่เรียนรู้ แต่ฉันไม่แน่ใจว่าหลักฐานของชื่อนั้นถูกต้อง ตัวอย่างเช่นความแตกต่างรวมทั้งช่วงในบางวิธีดูเหมือนมากขึ้นใช้งานง่ายกว่าบทสรุปเช่นค่าเฉลี่ยหรือมัธยฐาน บัญชีแตกต่างกัน แต่ถึงแม้ว่าค่าเฉลี่ยจะเกิดขึ้นในคณิตศาสตร์คลาสสิก แต่การใช้ข้อมูลสรุปก็เกิดขึ้นอย่างช้าๆและเจ็บปวดในราวศตวรรษที่ 17
Nick Cox

1
ด้วยความหวังว่าคำตอบสำหรับสิ่งนี้จะไม่ถูกเบี่ยงเบนไปจากรายละเอียดที่ไม่จำเป็นต้องเกี่ยวข้องกับปัญหา - คำถามนี้เกี่ยวกับความแปรปรวนต่อ se (ซึ่งการอภิปรายเรื่องการแบ่งกำลังสองอาจเกี่ยวข้องกัน) หรือแนวคิดทั่วไปเกี่ยวกับความแปรปรวน (การกระจายการแพร่กระจายการเปลี่ยนแปลง - ซึ่งมันจะไม่)? [ฉันยังสงสัยเกี่ยวกับขอบเขตที่เราสามารถพูดคุยกันโดยทั่วไปเกี่ยวกับความรู้สึกสัมพัทธ์ของผู้อื่น]
Glen_b

หลัง. ฉันควรทำให้ชัดเจน ไม่แน่ใจเกี่ยวกับคำถามโดยรวม อย่าลังเลที่จะปิด
Antoni Parellada

@Antoni ทำไมฉันต้องปิดมัน? ทั้งสองแบบจะเป็นคำถามที่ดี เพียงว่าคำตอบจะแตกต่างกัน
Glen_b -Reinstate Monica

คำตอบ:


9

ฉันแบ่งปันความรู้สึกของคุณว่าความแปรปรวนนั้นง่ายน้อยกว่าเล็กน้อย ที่สำคัญกว่านั้นความแปรปรวนของการวัดนั้นได้รับการปรับให้เหมาะสมสำหรับการแจกแจงบางอย่างและมีค่าน้อยกว่าสำหรับการแจกแจงแบบไม่สมมาตร ค่าเฉลี่ยที่แตกต่างจากค่าเฉลี่ยนั้นไม่ได้ใช้งานง่ายกว่าในมุมมองของฉันเพราะมันต้องเลือกค่าเฉลี่ยเป็นการวัดแนวโน้มกลาง ฉันชอบความแตกต่างของค่าเฉลี่ยของ Gini ซึ่งก็คือความแตกต่างโดยเฉลี่ยของการสังเกตทั้งหมด มันใช้งานง่ายแข็งแกร่งและมีประสิทธิภาพ ประสิทธิภาพหากข้อมูลมาจากการแจกแจงแบบเกาส์ค่าเฉลี่ยของ Gini กับปัจจัยการลดขนาดที่เหมาะสมที่นำไปใช้คือ 0.98 เท่ากับประสิทธิภาพส่วนเบี่ยงเบนมาตรฐานตัวอย่าง มีสูตรคำนวณที่มีประสิทธิภาพสำหรับความแตกต่างเฉลี่ยของ Gini เมื่อจัดเรียงข้อมูลแล้ว รหัส R อยู่ด้านล่าง

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

มันมีแนวโน้มที่จะเน้นการกระจายตัวมากเกินไปหรือไม่? ฉันกำลังเล่นกับรหัสของคุณที่นี่
Antoni Parellada

1
เป็นการวัดการกระจายตัวที่ถูกต้อง ถ้าคุณชอบคำจำกัดความมันไม่ได้เน้นอะไรมากไป
Frank Harrell

อย่างแน่นอน ฉันใช้โอกาสของคุณในการโพสต์และความคิดเห็นของฉันเป็นวิธีการแสดงความสนใจของฉัน ฉันแค่ต้องอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ ขอบคุณ!
Antoni Parellada

1
เฉพาะในกรณีที่xมีการเรียงลำดับเวกเตอร์แล้ว
Frank Harrell

4

นี่คือความคิดของฉัน มันไม่ได้อยู่ทุกมุมมองที่คุณสามารถดูคำถามของคุณในความเป็นจริงมีจำนวนมากที่ไม่ได้อยู่ (คำถามจะรู้สึกกว้างเล็กน้อย)

ทำไมมันเป็นเรื่องยากสำหรับคนธรรมดาที่จะเข้าใจการคำนวณทางคณิตศาสตร์ของความแปรปรวน?

ความแปรปรวนเป็นหลักว่าสิ่งต่าง ๆ เป็นอย่างไร นี่เป็นเรื่องง่ายที่จะเข้าใจ แต่วิธีการคำนวณนั้นอาจดูเป็นเรื่องธรรมดาสำหรับคนธรรมดา

ปัญหาคือความแตกต่างจากค่าเฉลี่ยคือกำลังสอง (จากนั้นเฉลี่ย), แล้วจึงทำการรูทสี่เหลี่ยมเพื่อให้ได้ค่าเบี่ยงเบนมาตรฐาน เราเข้าใจว่าเหตุใดจึงจำเป็นต้องใช้วิธีนี้ - การยกกำลังสองคือการทำให้ค่าเป็นบวกจากนั้นจะทำการรูทแบบสแควร์เพื่อให้ได้หน่วยดั้งเดิม อย่างไรก็ตามฆราวาสมีแนวโน้มที่จะสับสนกับสาเหตุที่ตัวเลขกำลังสองและรูทสแควร์ ดูเหมือนว่ามันจะยกเลิกเอง (ไม่ได้) ดังนั้นดูเหมือนไม่มีจุดหมาย / แปลก

สิ่งที่ง่ายกว่าสำหรับพวกเขาคือการค้นหาการแพร่กระจายโดยเพียงเฉลี่ยความแตกต่างที่แท้จริงระหว่างค่าเฉลี่ยและแต่ละจุด (เรียกว่าค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์) วิธีนี้ไม่ต้องใช้การยกกำลังสองและการรูทแบบสแควร์รูท

โปรดทราบว่าเพียงเพราะค่าเบี่ยงเบนสัมบูรณ์แบบตรงไปตรงมามากขึ้นไม่ได้หมายความว่ามันจะ 'ดีกว่า' การถกเถียงกันว่าจะใช้ค่า Squares หรือค่าสัมบูรณ์แน่นอนเกิดขึ้นมานานนับศตวรรษที่เกี่ยวข้องกับนักสถิติที่มีชื่อเสียงหลายคนดังนั้นคนที่ชอบฉันอย่างฉันไม่สามารถแสดงตัวที่นี่ได้และพูดว่าดีกว่า (กำลังสองเฉลี่ยเพื่อค้นหาความแปรปรวนเป็นที่นิยมมากกว่า)

โดยสรุป: Squaring เพื่อค้นหาความแปรปรวนดูเหมือนง่ายกว่าสำหรับคนธรรมดาสามัญที่จะหาค่าเฉลี่ยความแตกต่างแบบสัมบูรณ์ให้ตรงไปตรงมามากขึ้น อย่างไรก็ตามฉันไม่คิดว่าผู้คนจะมีปัญหากับการทำความเข้าใจความคิดในการแพร่กระจายตัวเอง


3
+1 สำหรับการชี้ให้เห็นผลกระทบของการยกกำลังสอง แต่ฉันคิดว่าปัญหาเกินกว่าโครงสร้างทางคณิตศาสตร์ที่เกิดขึ้นจริงเพื่อวัดการแพร่กระจาย มันอยู่ในระดับก้านสมองที่รุนแรงมากขึ้น - ห่างจากศูนย์กลางเพียงแค่ไม่รู้สึกเป็นธรรมชาติ จุดศูนย์กลางคือ
Antoni Parellada

อ่าฉันเข้าใจแล้ว ฉันไม่แน่ใจว่ามันเกี่ยวกับ 'การแพร่กระจาย' หรือวิธีการทางคณิตศาสตร์ที่เฉพาะเจาะจงในการค้นหาการแพร่กระจาย ฉันกลัวฉันไม่สามารถช่วยให้คุณกับอดีต - ส่วนตัวผมไม่คิดว่าคนมีที่มากของปัญหาด้วยความเข้าใจแนวคิดของการแพร่กระจาย ...
หยางหลี่

ฉันทำ. ฉันมีปัญหามากมายที่จะเข้าใจระดับของความไม่แน่นอนซึ่งในระดับที่ดีนั้นเป็นผลมาจากความแปรปรวนทันที ฉันไม่รู้ว่าทำไม
Antoni Parellada

3

ความคิดเห็นของฉันที่นี่สำหรับคำถามของคุณ

ฉันจะเริ่มต้นด้วยการถามคำตอบข้างต้นแล้วลองทำประเด็นของฉัน

คำถามจากสมมติฐานก่อนหน้า:

มันเป็นสี่เหลี่ยมที่ทำให้เกิดการกระจายตัวอย่างเช่นค่าเฉลี่ยความเบี่ยงเบนสแควร์หรือไม่? ฉันเห็นด้วยกับตารางทำให้มันยากขึ้นโดยนำความซับซ้อนทางคณิตศาสตร์มาใช้ แต่ถ้าคำตอบนั้นเป็นเพียงกำลังสองส่วนการเบี่ยงเบนเฉลี่ยแบบสัมบูรณ์จะง่ายต่อการเข้าใจและการวัดความเป็นศูนย์กลาง

ความคิดเห็นที่:

ฉันคิดว่าสิ่งที่ทำให้ยากสำหรับเราที่จะเข้าใจการวัดการกระจายตัวคือการกระจายตัวเองเป็นข้อมูล 2 มิติ การพยายามสรุปข้อมูลสองมิติในหนึ่งเมตริกหมายถึงการสูญเสียข้อมูลบางส่วนซึ่งทำให้เกิดความสับสน

ตัวอย่าง:

ตัวอย่างที่สามารถช่วยอธิบายแนวคิดด้านบนได้ดังต่อไปนี้ มารับชุดข้อมูล 2 ชุดที่แตกต่างกัน:

  1. ติดตามการแจกแจงแบบเกาส์
  2. ติดตามการแจกแจงที่ไม่รู้จักและไม่สมมาตร

สมมติว่าการกระจายตัวในรูปของ Standard Deviation คือ 1.0

ใจของฉันมีแนวโน้มที่จะตีความการกระจายตัวของเซต 1 ชัดเจนกว่าชุดที่ 2 ในกรณีนี้เหตุผลที่ฉันเข้าใจได้ดีขึ้นคือการรู้ว่าการแจกแจงรูปร่าง 2 มิติล่วงหน้าช่วยให้ฉันเข้าใจการกระจายตัวใน แง่ของความน่าจะเป็นรอบค่าเฉลี่ยเกาส์เซียนแบบรวมศูนย์ กล่าวอีกนัยหนึ่งการกระจายแบบเกาส์ทำให้ผมมีคำใบ้สองมิติที่ฉันต้องการเพื่อการแปลที่ดีขึ้นจากการวัดการกระจายตัว

สรุป:

โดยสรุปไม่มีวิธีที่จับต้องได้ในการวัดค่าเบี่ยงเบนเดียวสิ่งเดียวที่มีอยู่ในข้อมูล 2 มิติ สิ่งที่ฉันมักจะทำเพื่อทำความเข้าใจเกี่ยวกับการกระจายโดยไม่ต้องดูที่การกระจายโดยตรงนั้นคือการรวมมาตรการหลายอย่างที่อธิบายการกระจายตัวบางอย่าง พวกเขาจะตั้งค่าบริบทสำหรับใจของฉันให้เข้าใจการวัดการกระจายตัวดีขึ้น ถ้าฉันสามารถใช้ประโยชน์จากกราฟแน่นอนว่าพล็อตกล่องมีประโยชน์อย่างมากสำหรับการมองเห็นมัน

การอภิปรายที่ยอดเยี่ยมที่ทำให้ฉันคิดมากในเรื่องนี้ ฉันยินดีที่จะรับฟังความคิดเห็นของคุณ


1
การตอบสนองที่คิดดี +1 ฉันไม่มีอะไรจะเพิ่มเติมยกเว้นว่าฉันคิดว่าอาจมีเหตุผลอื่น ๆ ที่ควรค่าแก่การพิจารณาเช่นกัน
หยางหลี่

1

ฉันคิดว่าเหตุผลง่ายๆที่ผู้คนมีช่วงเวลาที่ยากขึ้นกับความแปรปรวน (ไม่ว่าจะเป็นความแปรปรวนส่วนเบี่ยงเบนมาตรฐาน MAD หรืออะไรก็ตาม) ก็คือคุณไม่สามารถเข้าใจความแปรปรวนได้จริง ๆ จนกว่าคุณจะเข้าใจความคิดที่เกี่ยวข้อง นี่เป็นเพราะการวัดความแปรปรวนทั้งหมดวัดจากระยะทางจากศูนย์กลาง

แนวคิดเช่นค่าเฉลี่ยและค่ามัธยฐานเป็นแนวคิดคู่ขนานคุณสามารถเรียนรู้ได้ทั้งคนแรกและบางคนอาจมีความเข้าใจที่ดีขึ้นของคนหนึ่งและคนอื่น ๆ จะเข้าใจอีกคนหนึ่งดีขึ้น แต่การแพร่กระจายวัดจากจุดศูนย์กลาง (สำหรับคำจำกัดความของจุดศูนย์กลาง) ดังนั้นจึงไม่สามารถเข้าใจได้ก่อน


1 ที่ทำให้ความรู้สึกมาก - มันเป็นแนวคิดที่รอง ...
อันโต Parellada

@Greg Snow: ยกเว้นว่ามัน 'ถูกต้อง'; เห็น Gini หมายถึงความแตกต่างจากคำตอบของ Frank Harrells ที่ไม่ได้ทำให้ความเบี่ยงเบนจากจุดศูนย์กลาง
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.