ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?
เรายกกำลังสองความแตกต่างของ x จากค่าเฉลี่ยเนื่องจากระยะทางแบบยุคลิดซึ่งเป็นสัดส่วนกับสแควร์รูทขององศาอิสระ (จำนวน x, การวัดประชากร) เป็นวิธีการกระจายตัวที่ดีที่สุด
กำลังคำนวณระยะทาง
ระยะทางจากจุด 0 ถึงจุด 5 คืออะไร
- 5−0=5 ,
- |0−5|=5และ
- 52−−√=5
โอเคนั่นมันเล็กน้อยเพราะมันเป็นมิติเดียว
ระยะทางสำหรับจุดที่จุด 0, 0 ถึงจุด 3, 4 เป็นอย่างไร?
หากเราสามารถไปในมิติเดียวในเวลา (เช่นในบล็อกเมือง) จากนั้นเราก็เพิ่มตัวเลขขึ้น (บางครั้งเรียกว่าระยะทางแมนฮัตตัน)
แต่จะเป็นสองมิติในคราวเดียว? จากนั้น (ตามทฤษฏีพีทาโกรัสเราทุกคนเรียนรู้ในโรงเรียนมัธยม) เรากำหนดระยะห่างในแต่ละมิติรวมกำลังสองจากนั้นใช้สแควร์รูทเพื่อหาระยะทางจากจุดกำเนิดถึงจุด
32+42−−−−−−√=25−−√=5
ระยะทางจากจุดที่ 0, 0, 0 ถึงจุด 1, 2, 2?
นี่เป็นเพียง
12+22+22−−−−−−−−−−√=9–√=3
เพราะระยะทางสำหรับสองคนแรกของ x รูปแบบขาสำหรับการคำนวณระยะทางรวมกับ x สุดท้าย
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
เราสามารถขยายกฎการยกกำลังสองของระยะแต่ละมิติได้โดยทั่วไปนี่คือสิ่งที่เราเรียกว่าระยะทางแบบยุคลิดสำหรับการวัดแบบมุมฉากในพื้นที่มิติหลายมิติเช่น:
distance=∑i=1nx2i−−−−−√
และผลรวมของกำลังสองมุมฉากคือระยะกำลังสอง:
distance2=∑i=1nx2i
อะไรทำให้การวัดมุมฉาก (หรือมุมฉาก) เป็นอีกมุมมองหนึ่ง? เงื่อนไขคือไม่มีความสัมพันธ์ระหว่างการวัดทั้งสอง เราจะมองหาการวัดเหล่านี้ให้เป็นอิสระและกระจายเป็นรายบุคคล ( iid )
ความแปรปรวน
ตอนนี้จำสูตรสำหรับความแปรปรวนประชากร (ซึ่งเราจะได้ค่าเบี่ยงเบนมาตรฐาน):
σ2=∑i=1n(xi−μ)2n
หากเรามีศูนย์กลางข้อมูลที่ 0 โดยการลบค่าเฉลี่ยเรามี:
σ2=∑i=1n(xi)2n
ดังนั้นเราเห็นความแปรปรวนเป็นระยะทางกำลังสองหารด้วยจำนวนองศาอิสระ (จำนวนมิติที่ตัวแปรอิสระแปรผัน) นี่เป็นผลงานเฉลี่ยต่อต่อการวัด "ค่าเฉลี่ยความแปรปรวนกำลังสอง" ก็เป็นคำที่เหมาะสมเช่นกันdistance2
ส่วนเบี่ยงเบนมาตรฐาน
จากนั้นเรามีค่าเบี่ยงเบนมาตรฐานซึ่งก็แค่สแควร์รูทของความแปรปรวน:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
ซึ่งเท่ากับระยะห่างหารด้วยสแควร์รูทขององศาอิสระ:
σ=∑i=1n(xi)2−−−−−−−√n−−√
ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย
Mean Absolute Deviation (MAD) คือการวัดการกระจายตัวที่ใช้ระยะทางแมนฮัตตันหรือผลรวมของค่าสัมบูรณ์ของความแตกต่างจากค่าเฉลี่ย
MAD=∑i=1n|xi−μ|n
อีกครั้งสมมติว่าข้อมูลอยู่กึ่งกลาง (ลบค่าเฉลี่ย) เรามีระยะทางแมนฮัตตันหารด้วยจำนวนการวัด:
MAD=∑i=1n|xi|n
อภิปรายผล
- ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยอยู่ที่ประมาณ. 8 เท่า ( จริง2/π−−−√ ) ขนาดของส่วนเบี่ยงเบนมาตรฐานสำหรับชุดข้อมูลที่กระจายแบบปกติ
- ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยนั้นน้อยกว่าหรือเท่ากับส่วนเบี่ยงเบนมาตรฐานโดยไม่คำนึงถึงการแจกแจง MAD เข้าใจการกระจายตัวของชุดข้อมูลที่มีค่ามากเมื่อเทียบกับค่าเบี่ยงเบนมาตรฐาน
- ค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์นั้นแข็งแกร่งกว่าค่าผิดปกติ (เช่นค่าผิดปกติไม่มีผลกระทบต่อสถิติเท่าที่ควรกับค่าเบี่ยงเบนมาตรฐาน
- การพูดทางเรขาคณิตถ้าการวัดไม่ได้เป็นมุมฉากซึ่งกันและกัน (iid) - ตัวอย่างเช่นถ้าพวกมันมีความสัมพันธ์เชิงบวกหมายความว่าการเบี่ยงเบนสัมบูรณ์จะเป็นสถิติเชิงพรรณนาที่ดีกว่าค่าเบี่ยงเบนมาตรฐานซึ่งอาศัยระยะทางแบบยุคลิด )
ตารางนี้แสดงข้อมูลข้างต้นอย่างกระชับยิ่งขึ้น:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
ความคิดเห็นที่:
คุณมีการอ้างอิงสำหรับ "เฉลี่ยเบี่ยงเบนสัมบูรณ์เป็นเรื่องเกี่ยวกับ. 8 เท่าของขนาดเบี่ยงเบนมาตรฐานสำหรับชุดข้อมูลที่กระจายตามปกติ"? การจำลองที่ฉันใช้แสดงสิ่งนี้ไม่ถูกต้อง
นี่คือตัวอย่างการจำลอง 10 ล้านตัวอย่างจากการแจกแจงแบบปกติมาตรฐาน:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
ข้อสรุป
เราชอบความแตกต่างกำลังสองเมื่อคำนวณการกระจายตัวเพราะเราสามารถใช้ประโยชน์จากระยะทางแบบยุคลิดซึ่งทำให้เรามีสถิติการกระจายตัวของ discriptive ดีกว่า เมื่อมีค่าที่ค่อนข้างสูงกว่าระยะทางแบบยุคลิดนั้นเป็นค่าทางสถิติในขณะที่ระยะทางแมนฮัตตันให้น้ำหนักแต่ละการวัดเท่ากัน