สัญชาตญาณของฉันคือการเบี่ยงเบนมาตรฐานคือ: การวัดการแพร่กระจายของข้อมูล
คุณมีจุดที่ดีว่าไม่ว่าจะกว้างหรือแคบก็ขึ้นอยู่กับสมมติฐานที่เราใช้สำหรับการกระจายข้อมูล
Caveat: การวัดการแพร่กระจายมีประโยชน์มากที่สุดเมื่อการกระจายข้อมูลของคุณมีความสมมาตรรอบค่าเฉลี่ยและมีความแปรปรวนค่อนข้างใกล้เคียงกับการแจกแจงแบบปกติ (ซึ่งหมายความว่าเป็นค่าประมาณปกติ)
ในกรณีที่ข้อมูลมีค่าประมาณปกติค่าเบี่ยงเบนมาตรฐานจะมีการตีความแบบบัญญัติ:
- ภูมิภาค: ตัวอย่างหมายถึง +/- 1 ส่วนเบี่ยงเบนมาตรฐานมีประมาณ 68% ของข้อมูล
- ภูมิภาค: ตัวอย่างค่าเฉลี่ย +/- 2 ส่วนเบี่ยงเบนมาตรฐานมีข้อมูลประมาณ 95%
- ภูมิภาค: ตัวอย่างหมายถึง +/- 3 ส่วนเบี่ยงเบนมาตรฐานมีประมาณ 99% ของข้อมูล
(ดูกราฟิกแรกในWiki )
นี่หมายความว่าถ้าเรารู้ว่าค่าเฉลี่ยของประชากรคือ 5 และค่าเบี่ยงเบนมาตรฐานคือ 2.83 และเราถือว่าการกระจายตัวอยู่ที่ประมาณปกติฉันจะบอกคุณว่าฉันแน่ใจว่าถ้าเราทำการสังเกตจำนวนมากเพียง 5% น้อยกว่า 0.4 = 5 - 2 * 2.3 หรือใหญ่กว่า 9.6 = 5 + 2 * 2.3
สังเกตว่าอะไรคือผลกระทบของการเบี่ยงเบนมาตรฐานในช่วงความมั่นใจของเรา (ยิ่งแพร่กระจายยิ่งมีความไม่แน่นอนมากขึ้น)
นอกจากนี้ในกรณีทั่วไปที่ข้อมูลไม่ได้ประมาณปกติ แต่ก็ยังสมมาตรคุณรู้ว่ามีบางส่วนที่:α
- ภูมิภาค: ตัวอย่างหมายถึง +/-ส่วนเบี่ยงเบนมาตรฐานมีข้อมูลประมาณ 95%α
คุณสามารถเรียนรู้จากตัวอย่างย่อยหรือสมมติว่าและสิ่งนี้จะให้กฎง่ายๆสำหรับการคำนวณในหัวของคุณว่าการคาดการณ์ในอนาคตที่คาดว่าจะเกิดขึ้นหรือการสังเกตใหม่ใดที่สามารถพิจารณาได้ว่า ค่าผิดปกติ (จำไว้ในใจว่า!)αα=2
ฉันไม่เห็นว่าคุณควรตีความมันอย่างไร 2.83 หมายถึงค่าที่มีการแพร่กระจายกว้างมากหรือพวกเขาทั้งหมดคลัสเตอร์อย่างแน่นหนารอบค่าเฉลี่ย ...
ฉันเดาคำถามทุกข้อที่ถามว่า "กว้างหรือแคบ" ควรมี: "ที่เกี่ยวข้องกับอะไร" หนึ่งข้อเสนอแนะอาจใช้การกระจายที่รู้จักกันดีเป็นข้อมูลอ้างอิง มันอาจจะมีประโยชน์ที่จะคิดเกี่ยวกับ: ขึ้นอยู่กับบริบท: "มันกว้างกว่าหรือแน่นกว่าปกติ / ปัวซองหรือไม่"
แก้ไข: ขึ้นอยู่กับคำแนะนำที่เป็นประโยชน์ในความคิดเห็นอีกหนึ่งแง่มุมเกี่ยวกับส่วนเบี่ยงเบนมาตรฐานเป็นการวัดระยะทาง
อีกสัญชาติญาณของประโยชน์ของการเบี่ยงเบนมาตรฐานคือมันเป็นการวัดระยะทางระหว่างข้อมูลตัวอย่างและค่าเฉลี่ย :sNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
จากการเปรียบเทียบค่าเฉลี่ยของข้อผิดพลาดกำลังสอง (MSE) ซึ่งเป็นหนึ่งในข้อผิดพลาดที่ได้รับความนิยมมากที่สุดในสถิติถูกกำหนดเป็น:
MSE=1n∑ni=1(Yi^−Yi)2
คำถามที่สามารถยกทำไมฟังก์ชั่นระยะทางดังกล่าวข้างต้น? ทำไมยกกำลังสองระยะทางและไม่ใช่ระยะทางที่แน่นอน? แล้วทำไมเราถึงนำสแควร์รูท?
ฟังก์ชั่นมีข้อดีคือเราสามารถแยกความแตกต่างและย่อให้เล็กสุดได้อย่างง่ายดาย เท่าที่เกี่ยวข้องสแควร์รูทมันจะเพิ่มความสามารถในการตีความตามที่แปลงข้อผิดพลาดกลับเป็นสเกลของข้อมูลที่เราสังเกตเห็น