ค่าเบี่ยงเบนมาตรฐานคืออะไรคำนวณอย่างไรและใช้ในสถิติอย่างไร
ค่าเบี่ยงเบนมาตรฐานคืออะไรคำนวณอย่างไรและใช้ในสถิติอย่างไร
คำตอบ:
ค่าเบี่ยงเบนมาตรฐานคือตัวเลขที่แสดงถึง "สเปรด" หรือ "การกระจาย" ของชุดข้อมูล มีมาตรการอื่น ๆ สำหรับการแพร่กระจายเช่นช่วงและความแปรปรวน
นี่คือตัวอย่างของชุดข้อมูลและส่วนเบี่ยงเบนมาตรฐาน:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
ชุดข้อมูลข้างต้นมีค่าเฉลี่ยเท่ากัน
การเบี่ยงเบนหมายถึง "ระยะห่างจากค่าเฉลี่ย"
"มาตรฐาน" ที่นี่หมายถึง "มาตรฐาน" หมายถึงส่วนเบี่ยงเบนมาตรฐานและค่าเฉลี่ยอยู่ในหน่วยเดียวกันซึ่งแตกต่างจากความแปรปรวน
ตัวอย่างเช่นถ้าความสูงเฉลี่ย 2 เมตรส่วนเบี่ยงเบนมาตรฐานอาจจะมี 0.3 เมตรขณะที่แปรปรวนจะเป็น 0.09 เมตรยกกำลังสอง
มันสะดวกที่จะรู้ว่าอย่างน้อย 75%ของจุดข้อมูลอยู่เสมอภายใน 2 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย (หรือประมาณ 95%ถ้าการกระจายเป็นปกติ)
ตัวอย่างเช่นถ้าค่าเฉลี่ยคือ 100 และส่วนเบี่ยงเบนมาตรฐานคือ 15 ดังนั้นอย่างน้อย 75% ของค่าอยู่ระหว่าง 70 ถึง 130
ถ้าการแจกแจงเป็นปกติแล้ว 95% ของค่าอยู่ระหว่าง 70 ถึง 130
โดยทั่วไปแล้วคะแนนการทดสอบ IQ จะกระจายตามปกติและมีค่าเฉลี่ย 100 คนที่มี "ความสว่างมาก" คือค่าเบี่ยงเบนมาตรฐานสองค่าที่สูงกว่าค่าเฉลี่ยหมายถึงคะแนนทดสอบ IQ ที่ 130
มันแสดงให้เห็นว่ามีการเปลี่ยนแปลงมากมายจาก "ค่าเฉลี่ย" (ค่าเฉลี่ยหรือค่าที่คาดหวัง / งบประมาณ) ค่าเบี่ยงเบนมาตรฐานต่ำบ่งชี้ว่าจุดข้อมูลมีแนวโน้มที่จะใกล้เคียงกับค่าเฉลี่ยมากในขณะที่ค่าเบี่ยงเบนมาตรฐานสูงบ่งชี้ว่าข้อมูลถูกกระจายออกไปในช่วงของค่าที่มีขนาดใหญ่
เมื่ออธิบายถึงตัวแปรเรามักจะสรุปโดยใช้การวัดสองแบบ: การวัดกึ่งกลางและการวัดการแพร่กระจาย มาตรการทั่วไปของศูนย์รวมถึงค่าเฉลี่ยมัธยฐานและโหมด การวัดโดยทั่วไปของการแพร่กระจายรวมถึงความแปรปรวนและช่วง interquartile
ความแปรปรวน (แสดงโดย sigma ตัวพิมพ์เล็กกรีกยกกำลังสอง) มักใช้เมื่อมีการรายงานค่าเฉลี่ย ความแปรปรวนคือค่าเบี่ยงเบนกำลังสองเฉลี่ยของตัวแปร ส่วนเบี่ยงเบนถูกคำนวณโดยการลบค่าเฉลี่ยจากการสังเกตแต่ละครั้ง นี่คือกำลังสองเพราะผลรวมจะเป็นศูนย์และกำลังสองลบปัญหานี้ในขณะที่รักษาขนาดสัมพัทธ์ของการเบี่ยงเบน ปัญหาของการใช้ชุดรูปแบบเป็นตัวชี้วัดของการแพร่กระจายคือมันเป็นหน่วยกำลังสอง ตัวอย่างเช่นหากตัวแปรที่เราสนใจวัดความสูงเป็นนิ้วดังนั้นความแปรปรวนจะถูกรายงานด้วยกำลังสองซึ่งทำให้ไม่สมเหตุสมผล ค่าเบี่ยงเบนมาตรฐาน (แสดงโดย sigma ตัวพิมพ์เล็กของกรีก) คือสแควร์รูทของความแปรปรวนและส่งคืนการวัดการแพร่กระจายไปยังหน่วยดั้งเดิม
เมื่อใช้ค่าเบี่ยงเบนมาตรฐานจะต้องระมัดระวังค่าผิดปกติเนื่องจากจะเบี่ยงเบนค่าเบี่ยงเบนมาตรฐาน (และค่าเฉลี่ย) เนื่องจากไม่ได้เป็นมาตรการป้องกันการแพร่กระจาย ตัวอย่างง่ายๆจะแสดงให้เห็นถึงคุณสมบัตินี้ ค่าเฉลี่ยของคะแนนการตีคริกเก็ตที่แย่มากของฉันคือ 13, 14, 16, 23, 26, 28, 33, 39 และ 61 คือ 28.11 หากเราถือว่า 61 เป็นค่าผิดปกติและลบออกค่าเฉลี่ยจะเป็น 24
นี่คือวิธีที่ฉันจะตอบคำถามนี้โดยใช้แผนภาพ
สมมุติว่าเรามีแมว 30 ตัวและคำนวณน้ำหนักเฉลี่ย จากนั้นเราสร้างพล็อตกระจายที่มีน้ำหนักบนแกน y และเอกลักษณ์ของแมวบนแกน x น้ำหนักเฉลี่ยสามารถวาดเป็นเส้นแนวนอน จากนั้นเราสามารถวาดเป็นเส้นแนวตั้งที่เชื่อมต่อแต่ละจุดข้อมูลกับเส้นเฉลี่ย - นี่คือการเบี่ยงเบนของแต่ละจุดข้อมูลจากค่าเฉลี่ยและเราเรียกมันว่าส่วนที่เหลือ ตอนนี้ค่าตกค้างเหล่านี้มีประโยชน์เพราะพวกเขาบอกเราบางอย่างเกี่ยวกับการแพร่กระจายของข้อมูล: หากมีสิ่งตกค้างจำนวนมากจำนวนมากแมวก็จะมีมวลแตกต่างกันมาก ในทางกลับกันหากส่วนที่เหลือมีขนาดเล็กส่วนใหญ่แล้วแมวจะจัดกลุ่มอย่างใกล้ชิดรอบน้ำหนักเฉลี่ย ดังนั้นถ้าเรามีตัวชี้วัดบางตัวที่บอกค่าเฉลี่ยความยาวของส่วนที่เหลือในชุดข้อมูลนี้จะเป็นวิธีที่สะดวกในการแสดงว่ามีการแพร่กระจายในข้อมูลมากน้อยเพียงใด ส่วนเบี่ยงเบนมาตรฐานคือความยาวของส่วนที่เหลือโดยเฉลี่ย
ฉันจะติดตามจากนี้โดยให้การคำนวณสำหรับ sd อธิบายว่าทำไมเราถึงสองสแควร์รูทแล้ว (ผมชอบคำอธิบายสั้น ๆ ของ Vaibhav) จากนั้นฉันจะพูดถึงปัญหาของผู้ผิดเช่นที่เกรแฮมทำในย่อหน้าสุดท้ายของเขา
หากข้อมูลที่ต้องการคือการกระจายของข้อมูลเกี่ยวกับค่าเฉลี่ยค่าเบี่ยงเบนมาตรฐานจะเป็นประโยชน์
ผลรวมของความแตกต่างของแต่ละค่าจากค่าเฉลี่ยคือศูนย์ (เห็นได้ชัดว่าเนื่องจากค่านั้นกระจายไปทั่วค่าเฉลี่ย) ดังนั้นเราจึงยกกำลังสองแต่ละความแตกต่างเพื่อแปลงค่าลบเป็นค่าบวกรวมพวกมันทั่วประชากร รากที่สอง. ค่านี้จะถูกหารด้วยจำนวนตัวอย่าง (หรือขนาดของประชากร) นี่ทำให้ส่วนเบี่ยงเบนมาตรฐาน
ผมชอบที่จะคิดว่ามันเป็นดังนี้ค่าเบี่ยงเบนมาตรฐานเป็นระยะทางเฉลี่ยจากค่าเฉลี่ย นี่เป็นแนวคิดที่มีประโยชน์มากกว่าประโยชน์ทางคณิตศาสตร์ แต่เป็นวิธีที่ดีในการอธิบายให้ผู้ที่ไม่ได้ฝึกหัด
ค่าเบี่ยงเบนมาตรฐานคือรากที่สองของช่วงเวลากลางที่สองของการแจกแจง ช่วงเวลากลางคือความแตกต่างที่คาดหวังจากมูลค่าที่คาดหวังของการกระจาย ช่วงเวลาศูนย์กลางแรกมักจะเป็น 0 ดังนั้นเราจึงกำหนดช่วงเวลากลางที่สองเป็นค่าที่คาดหวังของระยะทางยกกำลังสองของตัวแปรสุ่มจากค่าที่คาดหวัง
ในการวางไว้บนสเกลที่สอดคล้องกับข้อสังเกตดั้งเดิมมากขึ้นเราจะนำสแควร์รูทของช่วงเวลากลางที่สองนั้นและเรียกมันว่าค่าเบี่ยงเบนมาตรฐาน
ค่าเบี่ยงเบนมาตรฐานเป็นสมบัติของประชากร มันวัดค่าเฉลี่ยของ "การกระจาย" ที่มีต่อประชากรนั้น obsrvations ทั้งหมดมีการรวมกลุ่มรอบค่าเฉลี่ยหรือพวกเขากระจายออกไปอย่างกว้างขวาง?
ในการประเมินค่าเบี่ยงเบนมาตรฐานของประชากรเรามักจะคำนวณค่าเบี่ยงเบนมาตรฐานของ "ตัวอย่าง" จากประชากรนั้น ในการทำเช่นนี้คุณทำการสังเกตจากประชากรนั้นคำนวณค่าเฉลี่ยของการสังเกตเหล่านั้นแล้วคำนวณสแควร์รูทของการเบี่ยงเบนกำลังสองเฉลี่ยจาก "ค่าเฉลี่ยตัวอย่าง"
ในการรับค่าประมาณของความแปรปรวนคุณไม่ต้องคำนวณค่าเบี่ยงเบนยกกำลังสองเฉลี่ยจากค่าเฉลี่ยตัวอย่าง แต่คุณหารด้วย (N-1) โดยที่ N คือจำนวนการสังเกตในตัวอย่างของคุณ โปรดทราบว่า "ส่วนเบี่ยงเบนมาตรฐานตัวอย่าง" นี้ไม่ใช่ตัวประมาณค่าความเบี่ยงเบนมาตรฐาน แต่จัตุรัสของ "ค่าเบี่ยงเบนมาตรฐานตัวอย่าง" เป็นตัวประมาณค่าแบบเป็นกลางของความแปรปรวนของประชากร
วิธีที่ดีที่สุดที่ฉันเข้าใจว่าค่าเบี่ยงเบนมาตรฐานคือคิดถึงช่างทำผม! (คุณต้องรวบรวมข้อมูลจากช่างทำผมและเฉลี่ยความเร็วในการตัดผมของเธอเพื่อให้ตัวอย่างนี้ทำงานได้)
ใช้เวลาโดยเฉลี่ย 30 นาทีสำหรับช่างทำผมจะตัดผมคน
สมมติว่าคุณทำการคำนวณ (แพคเกจซอฟต์แวร์ส่วนใหญ่จะทำสิ่งนี้ให้คุณ) และคุณพบว่าค่าเบี่ยงเบนมาตรฐานคือ 5 นาที มันหมายถึงต่อไปนี้:
ฉันจะรู้สิ่งนี้ได้อย่างไร คุณต้องดูที่เส้นโค้งปกติที่ 68% อยู่ภายใน 1 ส่วนเบี่ยงเบนมาตรฐานและ 96% อยู่ภายใน 2 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย (ในกรณีนี้ 30 นาที) คุณเพิ่มหรือลบค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย
หากต้องการความสอดคล้องเช่นในกรณีนี้ค่าเบี่ยงเบนมาตรฐานยิ่งน้อย ในกรณีนี้ช่างทำผมใช้เวลาสูงสุด 40 นาทีกับลูกค้าที่ได้รับ คุณต้องตัดผมให้เร็วเพื่อที่จะได้รถเก๋งที่ประสบความสำเร็จ!