ค่าเบี่ยงเบนมาตรฐานคืออะไร?


31

ค่าเบี่ยงเบนมาตรฐานคืออะไรคำนวณอย่างไรและใช้ในสถิติอย่างไร


7
ฉันไม่คิดว่าจุดประสงค์ของไซต์นี้คือการตอบคำถามนักเรียนระดับประถม 6 และลูกของฉันเมื่อต้องเผชิญกับคำถามเช่นนี้จะ google สำหรับคำตอบ หากมีบางส่วนของคำนิยามที่คุณไม่เข้าใจให้ถามไป แต่คำถามที่ไม่ได้โฟกัสในหัวข้อพื้นฐานนั้นบ่งบอก (สำหรับฉัน) ว่าโปสเตอร์นั้นไม่ได้พยายามหาคำตอบด้วยซ้ำ จะเป็นอย่างไรต่อไป "หมายเลขคืออะไรและใช้อย่างไร"
PeterR

9
ฉันคิดว่าคำถามนี้ก็โอเค ที่จริงแล้วมันเป็นตัวอย่างที่ถูกโหวตมากที่สุดในหัวข้อคำถามในพื้นที่ 51 พื้นฐานก็โอเคที่นี่!
Peter Smit

6
ตกลงเป็นคำถามที่ถูกต้อง นอกจากนี้ยังมีการระบุไว้อย่างดีเนื่องจากจะขอตัวอย่างการใช้งานและการคำนวณ แน่นอนว่าวัตถุประสงค์ของเว็บไซต์คือการสร้างที่เก็บข้อมูลสำหรับคำถามทางสถิติทั้งหมด
Joel

5
ฉันเห็นด้วยกับโจเอล ค่าเบี่ยงเบนมาตรฐานเป็นแนวคิดที่สำคัญในสถิติ มันจะไม่ไร้สาระถ้าคุณไม่สามารถถามคำถามเกี่ยวกับมันในเว็บไซต์เกี่ยวกับการถามคำถามเชิงสถิติ
Parbury

4
ในฐานะที่เป็นครูมัธยมปลายในอดีตฉันจะบอกว่าไม่มีคำถามที่โง่ ช่วงเวลาที่คุณติดป้ายคำถามว่าไม่คู่ควรช่วงเวลาที่คุณใช้วิธีการเรียนรู้ที่ทรงพลังที่สุดออกไปนั่นคือการถามคำถาม! (ฉันจะไปที่ anwer คำถามนี้ด้านล่าง.)
Adhesh Josh

คำตอบ:


30

ค่าเบี่ยงเบนมาตรฐานคือตัวเลขที่แสดงถึง "สเปรด" หรือ "การกระจาย" ของชุดข้อมูล มีมาตรการอื่น ๆ สำหรับการแพร่กระจายเช่นช่วงและความแปรปรวน

นี่คือตัวอย่างของชุดข้อมูลและส่วนเบี่ยงเบนมาตรฐาน:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

ชุดข้อมูลข้างต้นมีค่าเฉลี่ยเท่ากัน

การเบี่ยงเบนหมายถึง "ระยะห่างจากค่าเฉลี่ย"

"มาตรฐาน" ที่นี่หมายถึง "มาตรฐาน" หมายถึงส่วนเบี่ยงเบนมาตรฐานและค่าเฉลี่ยอยู่ในหน่วยเดียวกันซึ่งแตกต่างจากความแปรปรวน

ตัวอย่างเช่นถ้าความสูงเฉลี่ย 2 เมตรส่วนเบี่ยงเบนมาตรฐานอาจจะมี 0.3 เมตรขณะที่แปรปรวนจะเป็น 0.09 เมตรยกกำลังสอง

มันสะดวกที่จะรู้ว่าอย่างน้อย 75%ของจุดข้อมูลอยู่เสมอภายใน 2 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย (หรือประมาณ 95%ถ้าการกระจายเป็นปกติ)

ตัวอย่างเช่นถ้าค่าเฉลี่ยคือ 100 และส่วนเบี่ยงเบนมาตรฐานคือ 15 ดังนั้นอย่างน้อย 75% ของค่าอยู่ระหว่าง 70 ถึง 130

ถ้าการแจกแจงเป็นปกติแล้ว 95% ของค่าอยู่ระหว่าง 70 ถึง 130

โดยทั่วไปแล้วคะแนนการทดสอบ IQ จะกระจายตามปกติและมีค่าเฉลี่ย 100 คนที่มี "ความสว่างมาก" คือค่าเบี่ยงเบนมาตรฐานสองค่าที่สูงกว่าค่าเฉลี่ยหมายถึงคะแนนทดสอบ IQ ที่ 130


นีลขอบคุณสำหรับคำตอบของคุณคุณสามารถอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับคำว่า "มาตรฐาน" ในคำว่า "ส่วนเบี่ยงเบนมาตรฐาน" ได้ไหม หากมีความเหมาะสมคุณสามารถสัมผัส "มาตรฐาน" ใน "ข้อผิดพลาดมาตรฐานของคำว่า" ขอบคุณล่วงหน้า.
สแตน

การแก้ไขล่าสุดของคุณ: SD "มาตรฐาน" ในแง่ใด โดยปกติแล้วมันจะกลายเป็นพื้นฐานสำหรับการสร้างมาตรฐาน แต่ไม่ได้เป็นมาตรฐาน
whuber

มันเป็นมาตรฐานที่จะอยู่ในหน่วยเดียวกันกับค่าเฉลี่ย
Neil McGuigan

ตัวอย่างที่มีความสูงเฉลี่ย 2 เมตรเป็นตัวอย่างที่ดีในการดูแลการใช้ทศนิยม ตัวอย่างเดียวกันนั้นสามารถทำได้ในหน่วยเซนติเมตรโดยที่ค่าเบี่ยงเบนมาตรฐาน 30 เซนติเมตรจะได้มาทางตรรกะจากความแปรปรวนของ 900 เซนติเมตร
Robert Jones

ความประทับใจของฉันคือควรหลีกเลี่ยงในหน่วยวัดหลัก พิจารณาผลลัพธ์ที่พูดถึง SD ที่ 0.133 หน่วยเป็นเมตรแปลงเป็นเดซิเมตหน่วยเซนติเมตรและมิลลิเมตร มีใครสนใจที่จะอธิบายให้ฟังหน่อยได้ไหม
Robert Jones

9

อ้างจากวิกิพีเดีย

มันแสดงให้เห็นว่ามีการเปลี่ยนแปลงมากมายจาก "ค่าเฉลี่ย" (ค่าเฉลี่ยหรือค่าที่คาดหวัง / งบประมาณ) ค่าเบี่ยงเบนมาตรฐานต่ำบ่งชี้ว่าจุดข้อมูลมีแนวโน้มที่จะใกล้เคียงกับค่าเฉลี่ยมากในขณะที่ค่าเบี่ยงเบนมาตรฐานสูงบ่งชี้ว่าข้อมูลถูกกระจายออกไปในช่วงของค่าที่มีขนาดใหญ่


5

เมื่ออธิบายถึงตัวแปรเรามักจะสรุปโดยใช้การวัดสองแบบ: การวัดกึ่งกลางและการวัดการแพร่กระจาย มาตรการทั่วไปของศูนย์รวมถึงค่าเฉลี่ยมัธยฐานและโหมด การวัดโดยทั่วไปของการแพร่กระจายรวมถึงความแปรปรวนและช่วง interquartile

ความแปรปรวน (แสดงโดย sigma ตัวพิมพ์เล็กกรีกยกกำลังสอง) มักใช้เมื่อมีการรายงานค่าเฉลี่ย ความแปรปรวนคือค่าเบี่ยงเบนกำลังสองเฉลี่ยของตัวแปร ส่วนเบี่ยงเบนถูกคำนวณโดยการลบค่าเฉลี่ยจากการสังเกตแต่ละครั้ง นี่คือกำลังสองเพราะผลรวมจะเป็นศูนย์และกำลังสองลบปัญหานี้ในขณะที่รักษาขนาดสัมพัทธ์ของการเบี่ยงเบน ปัญหาของการใช้ชุดรูปแบบเป็นตัวชี้วัดของการแพร่กระจายคือมันเป็นหน่วยกำลังสอง ตัวอย่างเช่นหากตัวแปรที่เราสนใจวัดความสูงเป็นนิ้วดังนั้นความแปรปรวนจะถูกรายงานด้วยกำลังสองซึ่งทำให้ไม่สมเหตุสมผล ค่าเบี่ยงเบนมาตรฐาน (แสดงโดย sigma ตัวพิมพ์เล็กของกรีก) คือสแควร์รูทของความแปรปรวนและส่งคืนการวัดการแพร่กระจายไปยังหน่วยดั้งเดิม

เมื่อใช้ค่าเบี่ยงเบนมาตรฐานจะต้องระมัดระวังค่าผิดปกติเนื่องจากจะเบี่ยงเบนค่าเบี่ยงเบนมาตรฐาน (และค่าเฉลี่ย) เนื่องจากไม่ได้เป็นมาตรการป้องกันการแพร่กระจาย ตัวอย่างง่ายๆจะแสดงให้เห็นถึงคุณสมบัตินี้ ค่าเฉลี่ยของคะแนนการตีคริกเก็ตที่แย่มากของฉันคือ 13, 14, 16, 23, 26, 28, 33, 39 และ 61 คือ 28.11 หากเราถือว่า 61 เป็นค่าผิดปกติและลบออกค่าเฉลี่ยจะเป็น 24


1
σ2σ

2

นี่คือวิธีที่ฉันจะตอบคำถามนี้โดยใช้แผนภาพ

สมมุติว่าเรามีแมว 30 ตัวและคำนวณน้ำหนักเฉลี่ย จากนั้นเราสร้างพล็อตกระจายที่มีน้ำหนักบนแกน y และเอกลักษณ์ของแมวบนแกน x น้ำหนักเฉลี่ยสามารถวาดเป็นเส้นแนวนอน จากนั้นเราสามารถวาดเป็นเส้นแนวตั้งที่เชื่อมต่อแต่ละจุดข้อมูลกับเส้นเฉลี่ย - นี่คือการเบี่ยงเบนของแต่ละจุดข้อมูลจากค่าเฉลี่ยและเราเรียกมันว่าส่วนที่เหลือ ตอนนี้ค่าตกค้างเหล่านี้มีประโยชน์เพราะพวกเขาบอกเราบางอย่างเกี่ยวกับการแพร่กระจายของข้อมูล: หากมีสิ่งตกค้างจำนวนมากจำนวนมากแมวก็จะมีมวลแตกต่างกันมาก ในทางกลับกันหากส่วนที่เหลือมีขนาดเล็กส่วนใหญ่แล้วแมวจะจัดกลุ่มอย่างใกล้ชิดรอบน้ำหนักเฉลี่ย ดังนั้นถ้าเรามีตัวชี้วัดบางตัวที่บอกค่าเฉลี่ยความยาวของส่วนที่เหลือในชุดข้อมูลนี้จะเป็นวิธีที่สะดวกในการแสดงว่ามีการแพร่กระจายในข้อมูลมากน้อยเพียงใด ส่วนเบี่ยงเบนมาตรฐานคือความยาวของส่วนที่เหลือโดยเฉลี่ย

ฉันจะติดตามจากนี้โดยให้การคำนวณสำหรับ sd อธิบายว่าทำไมเราถึงสองสแควร์รูทแล้ว (ผมชอบคำอธิบายสั้น ๆ ของ Vaibhav) จากนั้นฉันจะพูดถึงปัญหาของผู้ผิดเช่นที่เกรแฮมทำในย่อหน้าสุดท้ายของเขา


1

หากข้อมูลที่ต้องการคือการกระจายของข้อมูลเกี่ยวกับค่าเฉลี่ยค่าเบี่ยงเบนมาตรฐานจะเป็นประโยชน์

ผลรวมของความแตกต่างของแต่ละค่าจากค่าเฉลี่ยคือศูนย์ (เห็นได้ชัดว่าเนื่องจากค่านั้นกระจายไปทั่วค่าเฉลี่ย) ดังนั้นเราจึงยกกำลังสองแต่ละความแตกต่างเพื่อแปลงค่าลบเป็นค่าบวกรวมพวกมันทั่วประชากร รากที่สอง. ค่านี้จะถูกหารด้วยจำนวนตัวอย่าง (หรือขนาดของประชากร) นี่ทำให้ส่วนเบี่ยงเบนมาตรฐาน


". เนื่องจากเรายกกำลังสองให้ต่างกัน .... " เราสามารถหาค่าสัมบูรณ์เพื่อกำจัดค่าลบได้เช่นกัน แล้วทำไมการยกกำลังสองวิธีที่ดีกว่าเพราะเราต้องใช้สแควร์รูทในตอนท้าย? ทำไมไม่รวมเพียงค่าสัมบูรณ์ของส่วนเบี่ยงเบนเท่านั้น
Dilip Sarwate

เห็นนี่ไหม ลิงก์
Vaibhav Garg

45

1
@DilipSarwate ด้วยความเคารพเนื่องจากการพิสูจน์โดยผู้มีอำนาจไม่ได้สร้างความประทับใจให้ฉัน การคาดคะเนว่า "ด้วยเหตุนี้" คือ "เผด็จการ" เป็น "มนุษย์ฟาง" ที่ฉันอยากจะเพิกเฉย ระดับของรายละเอียดในข้อความใด ๆ ที่ได้รับนั้นสอดคล้องกับความชอบและ / หรือความสำคัญของการสอนที่เหมือนกันในบริบทที่กำหนด ฉันคิดว่าคนที่ถามว่า "ค่าเบี่ยงเบนมาตรฐานคืออะไรมันเป็นยังไงบ้าง? อาจไม่ต้องการรับภาระกับข้อกำหนดทางคณิตศาสตร์ที่เข้มงวดของเดียวกัน การทำให้เข้าใจง่ายคือการไตร่ตรองและให้ฉันรับรองกับคุณว่าไม่ใช่ผลของการไม่รู้ตัว
Vaibhav Garg

1
และสิ่งที่อธิษฐานบอกคือ .. "ดังนั้นเราจึงสแควร์ ... " นอกเหนือจากหลักฐานโดยผู้มีอำนาจที่ไม่ได้สร้างความประทับใจให้คุณ? ไม่มีเหตุผลเชิงเหตุผลที่การแก้ปัญหากำลังสองเป็นวิธีแก้ปัญหาโดยอัตโนมัติตามที่ "ดังนั้น" ของคุณแสดงถึง
Dilip Sarwate

1

ผมชอบที่จะคิดว่ามันเป็นดังนี้ค่าเบี่ยงเบนมาตรฐานเป็นระยะทางเฉลี่ยจากค่าเฉลี่ย นี่เป็นแนวคิดที่มีประโยชน์มากกว่าประโยชน์ทางคณิตศาสตร์ แต่เป็นวิธีที่ดีในการอธิบายให้ผู้ที่ไม่ได้ฝึกหัด


0

ค่าเบี่ยงเบนมาตรฐานคือรากที่สองของช่วงเวลากลางที่สองของการแจกแจง ช่วงเวลากลางคือความแตกต่างที่คาดหวังจากมูลค่าที่คาดหวังของการกระจาย ช่วงเวลาศูนย์กลางแรกมักจะเป็น 0 ดังนั้นเราจึงกำหนดช่วงเวลากลางที่สองเป็นค่าที่คาดหวังของระยะทางยกกำลังสองของตัวแปรสุ่มจากค่าที่คาดหวัง

ในการวางไว้บนสเกลที่สอดคล้องกับข้อสังเกตดั้งเดิมมากขึ้นเราจะนำสแควร์รูทของช่วงเวลากลางที่สองนั้นและเรียกมันว่าค่าเบี่ยงเบนมาตรฐาน

ค่าเบี่ยงเบนมาตรฐานเป็นสมบัติของประชากร มันวัดค่าเฉลี่ยของ "การกระจาย" ที่มีต่อประชากรนั้น obsrvations ทั้งหมดมีการรวมกลุ่มรอบค่าเฉลี่ยหรือพวกเขากระจายออกไปอย่างกว้างขวาง?

ในการประเมินค่าเบี่ยงเบนมาตรฐานของประชากรเรามักจะคำนวณค่าเบี่ยงเบนมาตรฐานของ "ตัวอย่าง" จากประชากรนั้น ในการทำเช่นนี้คุณทำการสังเกตจากประชากรนั้นคำนวณค่าเฉลี่ยของการสังเกตเหล่านั้นแล้วคำนวณสแควร์รูทของการเบี่ยงเบนกำลังสองเฉลี่ยจาก "ค่าเฉลี่ยตัวอย่าง"

ในการรับค่าประมาณของความแปรปรวนคุณไม่ต้องคำนวณค่าเบี่ยงเบนยกกำลังสองเฉลี่ยจากค่าเฉลี่ยตัวอย่าง แต่คุณหารด้วย (N-1) โดยที่ N คือจำนวนการสังเกตในตัวอย่างของคุณ โปรดทราบว่า "ส่วนเบี่ยงเบนมาตรฐานตัวอย่าง" นี้ไม่ใช่ตัวประมาณค่าความเบี่ยงเบนมาตรฐาน แต่จัตุรัสของ "ค่าเบี่ยงเบนมาตรฐานตัวอย่าง" เป็นตัวประมาณค่าแบบเป็นกลางของความแปรปรวนของประชากร


6
นี่เป็นการตอบสนองที่ไม่ชัดเจนอย่างไม่น่าเชื่อ โปรดลองเขียนเป็นภาษาอังกฤษ
Neil McGuigan

1
อาจเป็นเช่นนั้น คือคนที่ถามคำถามนี้กับคนที่เดินไปตามถนนหรืออย่างน้อยก็เปิดหนังสือสถิติ การบอกคนว่าค่าเบี่ยงเบนมาตรฐานเป็นแค่สแควร์รูตของความแปรปรวนอย่างสมบูรณ์
Baltimark

-1

วิธีที่ดีที่สุดที่ฉันเข้าใจว่าค่าเบี่ยงเบนมาตรฐานคือคิดถึงช่างทำผม! (คุณต้องรวบรวมข้อมูลจากช่างทำผมและเฉลี่ยความเร็วในการตัดผมของเธอเพื่อให้ตัวอย่างนี้ทำงานได้)

ใช้เวลาโดยเฉลี่ย 30 นาทีสำหรับช่างทำผมจะตัดผมคน

สมมติว่าคุณทำการคำนวณ (แพคเกจซอฟต์แวร์ส่วนใหญ่จะทำสิ่งนี้ให้คุณ) และคุณพบว่าค่าเบี่ยงเบนมาตรฐานคือ 5 นาที มันหมายถึงต่อไปนี้:

  • ช่างทำผมตัดผม 68% ของลูกค้าของเธอภายใน 25 นาทีและ 35 นาที
  • ช่างทำผมตัดผม 96% ของลูกค้าของเธอภายใน 20 และ 40 นาที

ฉันจะรู้สิ่งนี้ได้อย่างไร คุณต้องดูที่เส้นโค้งปกติที่ 68% อยู่ภายใน 1 ส่วนเบี่ยงเบนมาตรฐานและ 96% อยู่ภายใน 2 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย (ในกรณีนี้ 30 นาที) คุณเพิ่มหรือลบค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย

หากต้องการความสอดคล้องเช่นในกรณีนี้ค่าเบี่ยงเบนมาตรฐานยิ่งน้อย ในกรณีนี้ช่างทำผมใช้เวลาสูงสุด 40 นาทีกับลูกค้าที่ได้รับ คุณต้องตัดผมให้เร็วเพื่อที่จะได้รถเก๋งที่ประสบความสำเร็จ!


ฉันไม่คิดว่าคุณพิสูจน์อักษรคำตอบของคุณ Adhesh คุณมีข้อมูลที่ขัดแย้งกันอยู่ที่นี่ ดูว่าคุณเห็นด้วยกับการแก้ไขของฉันได้ไหม
rolando2

1
คุณอธิบายการตีความส่วนเบี่ยงเบนมาตรฐานในกรณีของการแจกแจงแบบปกติเท่านั้น กฎ '68% 'และ (และ 95% กฎ) จะใช้กับข้อมูลที่กระจายแบบปกติเท่านั้น อย่างน้อยที่สุดระบุว่าสัญลักษณ์แสดงหัวข้อย่อยทั้งสองนั้นเป็นจริงเฉพาะในกรณีที่การตัดผมครั้งตามการกระจายปกติ
มาโคร

มาโครฉันได้พูดถึงเส้นโค้งปกติและมันเป็นสิ่งที่กำหนดว่าถ้าคุณใช้เส้นโค้งปกติข้อมูลจะเป็นไปตามการแจกแจงปกติ
Adhesh Josh

@ rolando2 ฉันดูเหมือนจะไม่เข้าใจว่ามีอะไรผิดปกติกับคำอธิบายของ
Adhesh

@Amarald - คุณคลิกที่ "Jan 31 at 1:06" เพื่อดูรุ่นก่อนและหลังการแก้ไขหรือไม่ ฉันคิดว่าคำตอบนั้นแข็งแกร่งกว่าแม้ว่า Macro จะเป็นประเด็นที่สำคัญเช่นกัน
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.