ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?


408

ในคำจำกัดความของส่วนเบี่ยงเบนมาตรฐานทำไมเราต้องยกกำลังสองความแตกต่างจากค่าเฉลี่ยเพื่อให้ได้ค่าเฉลี่ย (E) และนำสแควร์รูทกลับมาที่จุดสิ้นสุด? เราไม่เพียงแค่เอาค่าสัมบูรณ์ของความแตกต่างมาแทนและรับค่าที่คาดหวัง (ค่าเฉลี่ย) ของสิ่งเหล่านั้นและนั่นจะไม่แสดงการแปรผันของข้อมูลหรือไม่ จำนวนจะแตกต่างจากวิธีสแควร์ (วิธีค่าสัมบูรณ์จะน้อยกว่า) แต่ก็ยังควรแสดงการแพร่กระจายของข้อมูล ไม่มีใครรู้ว่าทำไมเราถึงใช้วิธีการจตุรัสนี้เป็นมาตรฐาน?

ความหมายของค่าเบี่ยงเบนมาตรฐาน:

σ=E[(Xμ)2].

เราไม่สามารถใช้ค่าสัมบูรณ์แทนได้และยังเป็นการวัดที่ดีหรือไม่?

σ=E[|Xμ|]


25
ในทางหนึ่งการวัดที่คุณเสนอถูกนำมาใช้อย่างกว้างขวางในกรณีของการวิเคราะห์ข้อผิดพลาด (คุณภาพของรูปแบบ) - จากนั้นจะเรียกว่าแม่ "หมายถึงข้อผิดพลาดสัมบูรณ์"

8
ในการยอมรับคำตอบดูเหมือนว่าสำคัญสำหรับเราที่จะต้องใส่ใจว่าคำตอบนั้นเป็นวงกลมหรือไม่ การแจกแจงแบบปกตินั้นขึ้นอยู่กับการวัดความแปรปรวนเหล่านี้จากข้อผิดพลาดกำลังสอง แต่นั่นไม่ได้มีเหตุผลสำหรับการใช้ (XM) ^ 2 มากกว่า | XM |
russellpierce

2
คุณคิดว่ามาตรฐานคำนี้หมายถึงมาตรฐานนี้หรือไม่ มันไม่เหมือนถามว่าทำไมองค์ประกอบหลักคือ "เงินต้น" และไม่ใช่เงินสำรอง?
robin girard

51
ทุกคำตอบที่นำเสนอเป็นวงกลม พวกเขามุ่งเน้นไปที่ความสะดวกในการคำนวณทางคณิตศาสตร์ (ซึ่งเป็นเรื่องดี แต่ไม่มีพื้นฐาน) หรือคุณสมบัติของการแจกแจงแบบเกาส์ (ปกติ) และ OLS รอบ 1800 Gauss เริ่มมีสี่เหลี่ยมน้อยและความแปรปรวนและจากผู้ที่มาปกติกระจาย - มีวัฏจักร เหตุผลพื้นฐานอย่างแท้จริงที่ยังไม่ได้รับการเรียกในคำตอบใด ๆ เลยเป็นที่ไม่ซ้ำกันในบทบาทที่เล่นโดยแปรปรวนในทฤษฎีขีด จำกัด กลาง อีกประการหนึ่งคือความสำคัญในทฤษฎีการตัดสินใจลดการสูญเสียกำลังสอง
whuber

2
Taleb ทำกรณีที่ Edge.orgสำหรับการถอนส่วนเบี่ยงเบนมาตรฐานและการใช้ค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ย
Alex Holcombe

คำตอบ:


188

หากเป้าหมายของการเบี่ยงเบนมาตรฐานคือการสรุปการแพร่กระจายของชุดข้อมูลแบบสมมาตร (เช่นโดยทั่วไปว่าแต่ละตัวเลขนั้นมาจากค่าเฉลี่ย) เราต้องมีวิธีที่ดีในการกำหนดวิธีการวัดการแพร่กระจายนั้น

ประโยชน์ของการยกกำลังสอง ได้แก่ :

  • การยกกำลังสองจะให้ค่าเป็นบวกเสมอดังนั้นผลรวมจะไม่เป็นศูนย์
  • Squaring เน้นความแตกต่างที่ใหญ่กว่า - คุณลักษณะที่กลายเป็นทั้งดีและไม่ดี (คิดว่ามีเอฟเฟกต์ผิดปกติ)

อย่างไรก็ตามการยกกำลังสองมีปัญหาเป็นตัวชี้วัดของการแพร่กระจายและนั่นคือหน่วยทั้งหมดกำลังสองในขณะที่เราอาจต้องการการแพร่กระจายที่จะอยู่ในหน่วยเดียวกับข้อมูลต้นฉบับ (คิดว่าปอนด์กำลังสองดอลลาร์กำลังสองหรือแอปเปิ้ลยกกำลังสอง) . ดังนั้นสแควร์รูทช่วยให้เรากลับไปยังหน่วยดั้งเดิม

ฉันสมมติว่าคุณสามารถพูดได้ว่าความแตกต่างแบบสัมบูรณ์กำหนดน้ำหนักเท่ากันให้กับการแพร่กระจายของข้อมูลในขณะที่การยกกำลังสองเน้นความสุดขั้ว แม้ว่าทางเทคนิคตามที่คนอื่น ๆ ชี้ให้เห็นการยกกำลังสองจะทำให้พีชคณิตทำงานได้ง่ายขึ้นและมีคุณสมบัติที่วิธีการสัมบูรณ์ไม่ได้ (ตัวอย่างเช่นความแปรปรวนเท่ากับค่าคาดหวังของการกระจายตัวลบด้วยกำลังสอง ค่าเฉลี่ยของการกระจาย)

สิ่งสำคัญคือให้สังเกตว่าไม่มีเหตุผลที่คุณไม่สามารถรับความแตกต่างที่แน่นอนได้หากคุณชอบวิธีที่คุณต้องการดู 'สเปรด' (เรียงลำดับตามที่บางคนเห็นว่า 5% เป็นเกณฑ์มหัศจรรย์สำหรับ- ค่า เมื่อในความเป็นจริงมันขึ้นอยู่กับสถานการณ์) อันที่จริงมีวิธีการแข่งขันหลายวิธีสำหรับการวัดการแพร่กระจายp

มุมมองของฉันคือการใช้ค่ากำลังสองเพราะฉันคิดว่ามันเกี่ยวข้องกับทฤษฎีบทพีทาโกรัส: ... นี่ยังช่วยให้ฉันจำได้ว่าเมื่อทำงานกับตัวแปรสุ่มอิสระ , ผลต่างเพิ่ม, ส่วนเบี่ยงเบนมาตรฐานไม่ได้ แต่นั่นเป็นเพียงความชอบส่วนตัวของฉันซึ่งส่วนใหญ่ฉันใช้เป็นตัวช่วยความจำเท่านั้นโปรดอย่าสนใจย่อหน้านี้c=a2+b2

มากขึ้นการวิเคราะห์ในเชิงลึกสามารถอ่านได้ที่นี่


72
"กำลังสองให้ค่าบวกเสมอดังนั้นผลรวมจะไม่เป็นศูนย์" และค่าสัมบูรณ์ก็เช่นกัน
robin girard

32
@robin girard: ถูกต้องแล้วเหตุใดฉันจึงนำหน้าจุดนั้นด้วย "ประโยชน์ของการรวมกำลังสอง" ฉันไม่ได้หมายความว่าอะไรเกี่ยวกับค่าสัมบูรณ์ในข้อความนั้น ฉันใช้จุดของคุณแม้ว่าฉันจะพิจารณาการลบ / rephrasing ถ้าคนอื่นรู้สึกว่ามันไม่ชัดเจน
Tony Breyal

15
ข้อมูลสถิติที่แข็งแกร่งส่วนใหญ่เป็นความพยายามที่จะจัดการกับความไวที่มากเกินไปต่อค่าผิดปกติซึ่งเป็นผลมาจากการเลือกความแปรปรวนเป็นการวัดการกระจายของข้อมูล en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
บทความที่เชื่อมโยงกับคำตอบคือพระเจ้าส่ง
traggatmot

1
ฉันคิดว่าย่อหน้าเกี่ยวกับ Pythagoras เป็นที่สนใจ คุณสามารถคิดว่าข้อผิดพลาดเป็นพาหะในมิติกับnเป็นจำนวนของกลุ่มตัวอย่าง ขนาดในแต่ละมิติคือความแตกต่างจากค่าเฉลี่ยสำหรับตัวอย่างนั้น [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . ]ความยาวของเวกเตอร์นั้น (Pythagoras) คือรากของกำลังสองรวมคือส่วนเบี่ยงเบนมาตรฐาน nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

ความแตกต่างกำลังสองมีคุณสมบัติทางคณิตศาสตร์ที่ดีกว่า มันเปลี่ยนแปลงได้อย่างต่อเนื่อง (ดีเมื่อคุณต้องการย่อให้เล็กสุด) มันเป็นสถิติที่เพียงพอสำหรับการกระจายแบบเกาส์เซียนและมันเป็นเวอร์ชันปกติของ L2 ซึ่งมีประโยชน์ในการพิสูจน์การลู่เข้าและอื่น ๆ

ส่วนเบี่ยงเบนสัมบูรณ์เฉลี่ย (สัญกรณ์ค่าสัมบูรณ์ที่คุณแนะนำ) ใช้เป็นเครื่องวัดการกระจายตัว แต่ก็ไม่ได้เป็น "ความประพฤติดี" เหมือนกับข้อผิดพลาดกำลังสอง


2
พูดว่า "มันแตกต่างกันอย่างต่อเนื่อง (ดีเมื่อคุณต้องการย่อให้เล็กสุด)" คุณหมายความว่าค่าสัมบูรณ์นั้นยากที่จะปรับให้เหมาะสมหรือไม่?
robin girard

29
@robin: ในขณะที่ฟังก์ชั่นค่าสัมบูรณ์เป็นแบบต่อเนื่องทุกที่อนุพันธ์อันดับแรกไม่ได้ (ที่ x = 0) สิ่งนี้ทำให้การเพิ่มประสิทธิภาพเชิงวิเคราะห์ยากขึ้น
วินซ์

12
ใช่ แต่การค้นหาหมายเลขจริงที่คุณต้องการแทนที่จะเป็นเพียงตัวอธิบายนั้นง่ายกว่าภายใต้การสูญเสียข้อผิดพลาดกำลังสอง พิจารณากรณี 1 มิติ คุณสามารถแสดง minimizer ของข้อผิดพลาดยกกำลังสองโดยการดำเนินการเฉลี่ย: O (n) และรูปแบบปิด คุณสามารถแสดงค่าของตัวลดข้อผิดพลาดสัมบูรณ์โดยค่ามัธยฐาน แต่ไม่มีวิธีแก้ปัญหาแบบปิดที่บอกคุณว่าค่ามัธยฐานคืออะไร มันต้องมีการเรียงลำดับเพื่อค้นหาซึ่งเป็นสิ่งที่ต้องการ O (n log n) โซลูชันกำลังสองน้อยที่สุดมักจะเป็นการดำเนินการแบบปลั๊กแอนด์ชูกแบบเรียบง่ายโซลูชันค่าสัมบูรณ์มักจะต้องค้นหางานเพิ่มเติม
รวย

5
@ ริช: ทั้งความแปรปรวนและค่ามัธยฐานสามารถพบได้ในเวลาเชิงเส้นและแน่นอนไม่เร็วขึ้น ค่ามัธยฐานไม่จำเป็นต้องมีการเรียงลำดับ
Neil G


84

วิธีหนึ่งที่คุณสามารถคิดได้ก็คือค่าเบี่ยงเบนมาตรฐานนั้นคล้ายกับ "ระยะทางจากค่าเฉลี่ย"

เปรียบเทียบสิ่งนี้กับระยะทางในปริภูมิแบบยุคลิด - นี่คือระยะทางที่แท้จริงที่คุณแนะนำ (ซึ่ง btw คือความเบี่ยงเบนสัมบูรณ์ ) ซึ่งเหมือนกับการคำนวณระยะทางแมนฮัตตัน


17
การเปรียบเทียบที่ดีของอวกาศยูคลิด!
c4il

2
นอกจากนั้นในมิติเดียวกฎเกณฑ์และl 2ก็เหมือนกันใช่ไหม? l1l2
naught101

5
@ naught101: มันไม่ใช่หนึ่งมิติ แต่เป็นมิติโดยที่nคือจำนวนตัวอย่าง ค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนแน่นอนคือ (ปรับขนาด) ลิตร2และL 1ระยะทางตามลำดับระหว่างสองจุด( x 1 , x 2 , ... , x n )และ( μ , μ , ... , μ )ที่μเป็นค่าเฉลี่ย . nnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
สิ่งนี้ควรได้รับการแก้ไขเป็นระยะทางต่ำสุดจากค่าเฉลี่ย มันคือสมการพีทาโกรัสเป็นหลัก
จอห์น

56

เหตุผลที่เราคำนวณค่าเบี่ยงเบนมาตรฐานแทนของข้อผิดพลาดแน่นอนคือการที่เราสมมติว่าข้อผิดพลาดที่จะกระจายตามปกติ มันเป็นส่วนหนึ่งของแบบจำลอง

สมมติว่าคุณวัดความยาวน้อยมากด้วยไม้บรรทัดแล้วค่าเบี่ยงเบนมาตรฐานเป็นเมตริกที่ไม่ดีสำหรับข้อผิดพลาดเพราะคุณรู้ว่าคุณจะไม่วัดความยาวเชิงลบโดยไม่ตั้งใจ การวัดที่ดีขึ้นน่าจะเป็นสิ่งที่ช่วยให้พอดีกับการกระจายแกมม่ากับการวัดของคุณ:

log(E(x))E(log(x))

เช่นเดียวกับค่าเบี่ยงเบนมาตรฐานนี่ก็เป็นค่าที่ไม่เป็นลบและแตกต่างกัน แต่ก็เป็นสถิติข้อผิดพลาดที่ดีกว่าสำหรับปัญหานี้


3
ฉันชอบคำตอบของคุณ SD ไม่ใช่สถิติที่ดีที่สุดเสมอไป
RockScience

2
ตัวอย่างการตอบโต้ที่ดีว่าการเบี่ยงเบนมาตรฐานไม่ใช่วิธีที่ดีที่สุดในการคิดขนาดที่ผันผวน
Hbar

คุณไม่ควรมีเครื่องหมายตรงข้ามกับปริมาณที่จะให้ผลผลิตเป็นมาตรการเชิงบวก - ใช้นูนแทนเว้าบันทึกx ? logxlogx
AS

@ ไม่ไม่มันเป็นบวกอยู่เสมอ มันเป็นศูนย์เมื่อตัวอย่างทั้งหมดเท่ากันและมิฉะนั้นขนาดของมันจะวัดความแปรปรวน x
Neil G

คุณเข้าใจผิด สำหรับเว้ากรัม E(g(X))g(E(X))g
AS

25

คำตอบที่ทำให้ฉันพึงพอใจมากที่สุดคือมันหลุดออกจากธรรมชาติจากตัวอย่างทั่วๆไปจนถึงปริภูมิแบบยุคลิดแบบยู - มิติ เป็นที่ถกเถียงกันอย่างแน่นอนว่าเป็นสิ่งที่ควรทำ แต่ไม่ว่าในกรณีใด:

nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

วิธีนี้ยังทำให้คุณได้รับการตีความทางเรขาคณิตสำหรับความสัมพันธ์y})ρ^=cos(x~,y~)


7
สิ่งนี้ถูกต้องและน่าดึงดูด อย่างไรก็ตามในท้ายที่สุดดูเหมือนว่าจะเรียบเรียงคำถามใหม่โดยไม่ตอบคำถามเท่านั้น: คือทำไมเราควรใช้ระยะทางแบบยุคลิด (L2)
whuber

20
@sesqu ส่วนเบี่ยงเบนมาตรฐานไม่ได้กลายเป็นเรื่องธรรมดาจนกระทั่ง Gauss ในปี 1809 ได้รับการเบี่ยงเบนบาร์นี้โดยใช้ข้อผิดพลาดกำลังสองแทนที่จะเป็นข้อผิดพลาดสัมบูรณ์เป็นจุดเริ่มต้น อย่างไรก็ตามสิ่งที่ผลักพวกเขาไปด้านบน (ฉันเชื่อว่า) คือทฤษฎีการถดถอยของกัลตัน (ที่คุณบอกใบ้) และความสามารถของ ANOVA ในการย่อยสลายผลรวมของกำลังสอง - ซึ่งเป็นการเปรียบเทียบทฤษฎีบทพีทาโกรัสที่มีความสัมพันธ์ บรรทัดฐาน L2 ดังนั้น SD จึงกลายเป็นตัวชี้วัดทางธรรมชาติของการแพร่กระจายที่สนับสนุนใน Fisher's 1925 "วิธีการทางสถิติสำหรับนักวิจัย" และที่นี่เรา 85 ปีต่อมา
whuber

13
(+1) ดำเนินการต่อใน @ whuber's vein ฉันจะเดิมพันว่ามีนักเรียนที่ตีพิมพ์บทความในปี 1908 เรื่อง "ข้อผิดพลาดน่าจะเป็นของค่าเฉลี่ย - Hey, Guys, ตรวจสอบว่าแม่ในนิกาย!" จากนั้นสถิติจะมีใบหน้าที่แตกต่างอย่างสิ้นเชิงในตอนนี้ แน่นอนว่าเขาไม่ได้ตีพิมพ์บทความแบบนี้และแน่นอนว่าเขาไม่มีเพราะแม่ไม่โม้คุณสมบัติที่ดีทั้งหมดที่ S ^ 2 มี หนึ่งในนั้น (เกี่ยวข้องกับนักเรียน) คือความเป็นอิสระของค่าเฉลี่ย (ในกรณีปกติ) ซึ่งแน่นอนว่าเป็นการทบทวนความเป็น orthogonality ซึ่งทำให้เรากลับไปที่ L2 และผลิตภัณฑ์ด้านใน

3
คำตอบนี้กระตุ้นความคิดและฉันคิดว่าวิธีที่ฉันชอบในการดู ใน 1-D มันยากที่จะเข้าใจว่าทำไมการยกกำลังสองความแตกต่างถูกมองว่าดีขึ้น แต่ในหลายมิติ (หรือเพียงแค่ 2) เราสามารถเห็นได้ว่าระยะทางแบบยุคลิด (การยกกำลัง) นั้นเป็นที่นิยมในระยะทางของแมนฮัตตัน
thecity2

1
@whuber คุณช่วยอธิบายหน่อยได้ไหมว่า "บรรทัดที่กำหนดโดยXᵢ = μ" หมายถึงอะไร มันเป็นเส้นที่ผ่านจุดกำเนิดและจุด (μ, μ, ... , μ) หรือไม่? นอกจากนี้ฉันจะอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ที่ไหน
Arch Stanton

18

การยกระดับความแตกต่างจากค่าเฉลี่ยนั้นมีสองสามเหตุผล

  • ความแปรปรวนหมายถึงช่วงเวลาที่สองของการเบี่ยงเบน (RV ที่นี่คือ ) และดังนั้นตารางเป็นช่วงเวลาเป็นเพียงความคาดหวังของพลังที่สูงขึ้นของตัวแปรสุ่ม(xμ)

  • การมีรูปสี่เหลี่ยมตรงข้ามกับฟังก์ชั่นค่าสัมบูรณ์ให้ฟังก์ชันต่อเนื่องที่ดีและ differentiable (ค่าสัมบูรณ์ไม่แตกต่างที่ 0) - ซึ่งทำให้มันเป็นทางเลือกที่เป็นธรรมชาติโดยเฉพาะอย่างยิ่งในบริบทของการประมาณค่าและการวิเคราะห์การถดถอย

  • สูตรที่ยกกำลังสองก็ตกหล่นจากพารามิเตอร์ของการแจกแจงแบบปกติ


17

อีกเหตุผลหนึ่ง (นอกเหนือจากดีเลิศข้างต้น) มาจากฟิชเชอร์เองซึ่งแสดงให้เห็นว่าค่าเบี่ยงเบนมาตรฐานนั้นมีประสิทธิภาพมากกว่าการเบี่ยงเบนสัมบูรณ์ ที่นี่มีประสิทธิภาพเกี่ยวข้องกับสถิติที่จะแปรผันตามมูลค่าตัวอย่างที่แตกต่างจากประชากร หากประชากรของคุณกระจายตามปกติค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างต่าง ๆ จากประชากรนั้นโดยเฉลี่ยมักจะให้คุณค่ากับคุณซึ่งคล้ายกันมากในขณะที่ค่าเบี่ยงเบนสัมบูรณ์จะให้ตัวเลขที่กระจายออกไปอีกเล็กน้อย ตอนนี้เห็นได้ชัดว่านี่เป็นสถานการณ์ในอุดมคติ แต่เหตุผลนี้ทำให้คนจำนวนมากเชื่อ (พร้อมกับคณิตศาสตร์ที่สะอาดกว่า) ดังนั้นคนส่วนใหญ่จึงทำงานกับค่าเบี่ยงเบนมาตรฐาน


6
อาร์กิวเมนต์ของคุณขึ้นอยู่กับข้อมูลที่มีการแจกจ่ายตามปกติ หากเราสมมติว่าประชากรมีการแจกแจงแบบ "ทวีคูณ" แล้วค่าเบี่ยงเบนสัมบูรณ์จะมีประสิทธิภาพมากขึ้น (อันที่จริงแล้วมันเป็นสถิติที่เพียงพอสำหรับสเกล)
ความน่าจะเป็นเชิง

7
ใช่ตามที่ระบุไว้ "ถ้าปกติประชากรของคุณมีการแจกจ่าย"
Eric Suh

นอกจากนี้สมมติว่ามีการแจกแจงแบบปกติ Fisher Proof ถือว่าเป็นการวัดที่ปราศจากข้อผิดพลาด ด้วยข้อผิดพลาดเล็ก ๆ เช่น 1% สถานการณ์กลับตัวและค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์มีประสิทธิภาพมากกว่าส่วนเบี่ยงเบนมาตรฐาน
juanrga

14

เพื่อให้ผู้คนรู้ว่ามีคำถามล้นคณิตศาสตร์ในหัวข้อเดียวกัน

ทำไมเป็นมันจึงเย็นต่อตารางตัวเลขในแง่ของการหาที่เบี่ยงเบนมาตรฐาน

ข้อความนำไปใช้คือการใช้รากที่สองของความแปรปรวนนำไปสู่การคณิตศาสตร์ง่ายขึ้น การตอบสนองที่คล้ายกันนั้นให้โดย Rich และ Reed ด้านบน


3
'คณิตศาสตร์ที่ง่ายกว่า' ไม่ใช่ข้อกำหนดที่จำเป็นเมื่อเราต้องการสูตรและค่าของเราเพื่อสะท้อนชุดข้อมูลที่กำหนด คอมพิวเตอร์ยังทำงานหนักอยู่ดี
Dan W

การกำหนด pi เป็น 3.14 ทำให้คณิตศาสตร์ง่ายขึ้น แต่นั่นไม่ได้ทำให้ถูกต้อง
James

13

ความแปรปรวนเป็นสารเติมแต่ง: สำหรับตัวแปรสุ่มอิสระ , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

สังเกตุสิ่งที่ทำให้เป็นไปได้: บอกฉันว่าโยนเหรียญยุติธรรม 900 ครั้ง ความน่าจะเป็นที่จำนวนหัวที่ฉันได้รับอยู่ระหว่าง 440 ถึง 455 แค่หาจำนวนที่คาดหวังของหัว ( ) และความแปรปรวนของจำนวนหัว ( ) จากนั้นหาความน่าจะเป็นที่มีการแจกแจงแบบปกติ (หรือแบบเกาส์) ที่มีความคาดหวังและค่าเบี่ยงเบนมาตรฐานอยู่ระหว่างและ455.5Abraham de Moivre ทำสิ่งนี้ด้วยการโยนเหรียญในศตวรรษที่ 18 ดังนั้นก่อนอื่นจึงแสดงให้เห็นว่าเส้นโค้งรูประฆังนั้นมีค่าสำหรับบางสิ่ง225 = 15 2 450 15 439.5 455.5450225=15245015439.5455.5


การเบี่ยงเบนสัมบูรณ์หมายถึงการไม่เติมแต่งในลักษณะเดียวกันกับความแปรปรวนหรือไม่?
russellpierce

6
ไม่พวกเขาไม่ใช่.
Michael Hardy

10

ฉันคิดว่าความแตกต่างระหว่างการใช้การเบี่ยงเบนสัมบูรณ์และการเบี่ยงเบนกำลังสองจะชัดเจนขึ้นเมื่อคุณเคลื่อนที่เกินกว่าตัวแปรเดียวและคิดถึงการถดถอยเชิงเส้น http://en.wikipedia.org/wiki/Least_absolute_deviationsมีการสนทนาที่ดีโดยเฉพาะอย่างยิ่งส่วน "Contrasting Least Squares with Least Absolute Deviations" ซึ่งเชื่อมโยงกับแบบฝึกหัดนักเรียนบางส่วนที่มีแอปเพล็ตที่เรียบร้อยhttp: // www .math.wpi.edu

โดยสรุปการเบี่ยงเบนสัมบูรณ์อย่างน้อยที่สุดมีความทนทานต่อค่าผิดปกติมากกว่ากำลังสองน้อยที่สุดธรรมดาทั่วไป แต่มันอาจไม่เสถียร (การเปลี่ยนแปลงเล็กน้อยในแม้กระทั่งตัวเลขเดียวสามารถให้การเปลี่ยนแปลงครั้งใหญ่ในสายการประกอบ) และไม่ได้มีทางออกที่เป็นเอกลักษณ์เสมอไป สายติดตั้งทั้งหมด นอกจากนี้การเบี่ยงเบนสัมบูรณ์อย่างน้อยที่สุดต้องใช้วิธีการวนซ้ำในขณะที่สี่เหลี่ยมจัตุรัสขั้นต่ำสุดธรรมดามีวิธีแก้ปัญหาแบบปิดแบบง่าย ๆ แม้ว่าจะไม่ใช่เรื่องใหญ่ในตอนนี้เหมือนในสมัยของ Gauss และ Legendre


อาร์กิวเมนต์ "โซลูชันที่ไม่ซ้ำ" ค่อนข้างอ่อนหมายความว่ามีค่ามากกว่าหนึ่งค่าที่ได้รับการสนับสนุนจากข้อมูล นอกจากนี้การลงโทษค่าสัมประสิทธิ์เช่น L2 จะแก้ไขปัญหาที่ไม่ซ้ำกันและปัญหาความมั่นคงในระดับหนึ่งเช่นกัน
ความน่าจะเป็นที่เป็นไปได้

10

มีหลายเหตุผล; อาจหลักคือว่ามันทำงานได้ดีเป็นพารามิเตอร์ของการแจกแจงแบบปกติ


4
ฉันเห็นด้วย. ค่าเบี่ยงเบนมาตรฐานเป็นวิธีที่เหมาะสมในการวัดการกระจายตัวหากคุณถือว่าการกระจายแบบปกติ และการแจกแจงและข้อมูลจำนวนมากนั้นเป็นเรื่องปกติ
Łukasz Lew

2
ฉันไม่คิดว่าคุณควรพูดว่า "พารามิเตอร์ธรรมชาติ": พารามิเตอร์ธรรมชาติของการแจกแจงแบบปกติคือค่าเฉลี่ยและเวลาเฉลี่ยความแม่นยำ ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@ NeilG จุดดี; ฉันกำลังคิดถึงความหมาย "ไม่เป็นทางการ" ที่นี่ ฉันจะคิดถึงคำที่ดีกว่านี้

8

ในหลาย ๆ ด้านการใช้ส่วนเบี่ยงเบนมาตรฐานเพื่อสรุปการกระจายตัวคือการข้ามไปสู่ข้อสรุป คุณสามารถบอกได้ว่า SD หมายถึงการกระจายแบบสมมาตรเนื่องจากการรักษาระยะทางที่ต่ำกว่าค่าเฉลี่ยเท่ากับระยะทางเหนือค่าเฉลี่ย SD เป็นเรื่องยากมากที่จะตีความกับนักสถิติ หนึ่งอาจโต้แย้งว่าความแตกต่างเฉลี่ยของ Gini มีการใช้งานที่กว้างขึ้นและสามารถตีความได้มากขึ้น มันไม่จำเป็นต้องมีใครที่จะประกาศตัวเลือกของพวกเขาในการวัดแนวโน้มกลางเช่นการใช้ SD ทำเพื่อค่าเฉลี่ย ความแตกต่างเฉลี่ยของ Gini คือความแตกต่างที่แท้จริงโดยเฉลี่ยระหว่างการสำรวจสองแบบที่แตกต่างกัน นอกเหนือจากความแข็งแกร่งและง่ายต่อการตีความแล้วมันยังมีค่าเท่ากับ 0.98 เท่ากับ SD ถ้าการกระจายตัวเป็นแบบเกาส์จริง


2
เพียงเพิ่มข้อเสนอแนะของ @ Frank เกี่ยวกับ Gini มีบทความดีๆอยู่ที่นี่: projecteuclid.org/download/pdf_1/euclid.ss/1028905831มันมีมาตรการการกระจายตัวที่หลากหลายและให้มุมมองทางประวัติศาสตร์ที่มีข้อมูล
Thomas Speidel

1
ฉันชอบแนวคิดเหล่านี้เช่นกัน แต่มีคำนิยามความแปรปรวนแบบขนานที่รู้จักกันดีน้อยกว่า (และ SD นั้น) ที่ไม่ได้อ้างอิงถึงความหมายของพารามิเตอร์สถานที่ ความแปรปรวนคือครึ่งหนึ่งของกำลังสองเฉลี่ยสำหรับความแตกต่างของค่าระหว่างคู่ทั้งหมดเช่นเดียวกับความแตกต่างของค่าเฉลี่ย Gini จะขึ้นอยู่กับค่าสัมบูรณ์ของความแตกต่างของจำนวนคู่ทั้งหมด
Nick Cox

7

การประมาณค่าเบี่ยงเบนมาตรฐานของการแจกแจงต้องเลือกระยะทาง
สามารถใช้ระยะทางใด ๆ ต่อไปนี้:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

เรามักจะใช้ระยะทางแบบยุคลิดตามธรรมชาติ ( ) ซึ่งเป็นสิ่งที่ทุกคนใช้ในชีวิตประจำวัน ระยะทางที่คุณเสนอเป็นหนึ่งกับ 1 ทั้งคู่เป็นผู้สมัครที่ดี แต่ก็แตกต่างกันn = 1n=2n=1

เราสามารถตัดสินใจใช้เช่นกันn=3

ฉันไม่แน่ใจว่าคุณจะชอบคำตอบของฉันจุดของฉันที่ตรงกันข้ามกับคนอื่นไม่ได้แสดงให้เห็นว่าดีกว่า ฉันคิดว่าถ้าคุณต้องการประเมินค่าเบี่ยงเบนมาตรฐานของการกระจายคุณสามารถใช้ระยะทางที่แตกต่างกันได้n=2


6

ขึ้นอยู่กับสิ่งที่คุณกำลังพูดถึงเมื่อคุณพูดว่า "การแพร่กระจายของข้อมูล" สำหรับฉันนี่อาจหมายถึงสองสิ่ง:

  1. ความกว้างของการแจกแจงตัวอย่าง
  2. ความแม่นยำของการประมาณที่กำหนด

สำหรับจุดที่ 1) ไม่มีเหตุผลใดที่จะใช้ค่าเบี่ยงเบนมาตรฐานเป็นการวัดการแพร่กระจายยกเว้นเมื่อคุณมีการแจกแจงตัวอย่างแบบปกติ วัดเป็นตัวชี้วัดที่เหมาะสมมากขึ้นในกรณีของการกระจาย Laplace สุ่มตัวอย่าง ฉันเดาว่าค่าเบี่ยงเบนมาตรฐานจะถูกใช้ที่นี่เพราะสัญชาตญาณมาจากจุดที่ 2) อาจเป็นเพราะความสำเร็จของการสร้างแบบจำลองกำลังสองน้อยที่สุดโดยทั่วไปซึ่งค่าเบี่ยงเบนมาตรฐานเป็นการวัดที่เหมาะสม อาจเป็นเพราะการคำนวณนั้นง่ายกว่าการคำนวณสำหรับการแจกแจงส่วนใหญ่E(|Xμ|)E(X2)E(|X|)

ตอนนี้สำหรับจุดที่ 2) มีเหตุผลที่ดีมากสำหรับการใช้ความแปรปรวน / ส่วนเบี่ยงเบนมาตรฐานเป็นตัวชี้วัดการแพร่กระจายโดยเฉพาะอย่างยิ่ง แต่กรณีที่พบบ่อยมาก คุณสามารถดูได้จากการประมาณ Laplace ไปยังด้านหลัง ด้วย Dataและข้อมูลก่อนหน้าให้เขียน posterior สำหรับพารามิเตอร์เป็น:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

ฉันได้ใช้เป็นตัวแปรหุ่นเพื่อบ่งชี้ว่าตัวหารไม่ขึ้นอยู่กับ\ถ้าหลังมีเพียงครั้งเดียวสูงสุดกลมดี (เช่นไม่ใกล้เกินไปเป็น "เขตแดน") เราเทย์เลอร์สามารถขยายความน่าจะเป็นบันทึกเกี่ยวกับสูงสุด\หากเราใช้สองเทอมแรกของการขยายเทย์เลอร์เราจะได้รับtθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

แต่เรามีที่นี่เพราะเป็น "รอบดี"ดังนั้นเราจึงมี:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

หากเราเสียบค่าประมาณนี้เราจะได้รับ:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

ซึ่ง แต่สำหรับสัญกรณ์เป็นการแจกแจงแบบปกติโดยมีค่าเฉลี่ยเท่ากับและความแปรปรวนเท่ากับE(θDI)θmax

V(θDI)[h(θmax)]1

(เป็นค่าบวกเสมอเพราะเรามีค่าสูงสุดที่ปัดเศษ) ดังนั้นหมายความว่าในปัญหา "ปกติ" (ซึ่งเป็นส่วนใหญ่ของพวกเขา) ความแปรปรวนเป็นปริมาณพื้นฐานซึ่งเป็นตัวกำหนดความถูกต้องของการประมาณการสำหรับ\ดังนั้นสำหรับการประมาณการโดยอิงจากข้อมูลจำนวนมากค่าเบี่ยงเบนมาตรฐานนั้นสมเหตุสมผลในทางทฤษฎี - มันบอกคุณทุกอย่างที่คุณจำเป็นต้องรู้ โดยพื้นฐานแล้วจะใช้อาร์กิวเมนต์เดียวกัน (โดยมีเงื่อนไขเหมือนกัน) ในกรณีที่มีหลายมิติพร้อมเป็นเมทริกซ์ของ Hessian เส้นทแยงมุมก็มีความแปรปรวนที่นี่เช่นกันh(θmax)θh(θ)jk=h(θ)θjθk

บ่อยครั้งที่ใช้วิธีการของความน่าจะเป็นสูงสุดจะมาถึงข้อสรุปเดียวกันเพราะ MLE มีแนวโน้มที่จะเป็นการรวมกันของข้อมูลและสำหรับตัวอย่างขนาดใหญ่ทฤษฎีขีด จำกัด กลางใช้และโดยทั่วไปคุณจะได้ผลลัพธ์เดียวกันถ้าเราใช้แต่มีและ interchanged: (ดูว่าคุณสามารถเดาได้ว่าฉันชอบกระบวนทัศน์ใด: P) ด้วยวิธีใดวิธีหนึ่งในการประมาณค่าพารามิเตอร์ส่วนเบี่ยงเบนมาตรฐานคือการวัดทางทฤษฎีที่สำคัญของการแพร่กระจายθ θ สูงสุด P ( θ สูงสุด | θ ) N ( θ , [ - เอช" ( θ สูงสุด ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"ทำไมต้องเป็นความแตกต่างยกกำลังสอง" แทนที่จะเป็น "รับค่าสัมบูรณ์" เพื่อที่จะตอบอย่างถูกต้องมีวรรณกรรมที่ให้เหตุผลว่าทำไมมันจึงถูกนำมาใช้และกรณีที่สาเหตุส่วนใหญ่ของเหตุผลเหล่านั้นไม่ถือ "พวกเราไม่สามารถรับค่าสัมบูรณ์ได้หรือไม่?" ฉันรู้วรรณกรรมซึ่งคำตอบคือใช่มันกำลังทำอยู่และการทำเช่นนั้นถูกโต้แย้งว่าเป็นข้อได้เปรียบ

ผู้เขียน Gorard ก่อนอื่นการใช้กำลังสองถูกนำมาใช้ก่อนหน้านี้ด้วยเหตุผลของความเรียบง่ายของการคำนวณ แต่ที่เหตุผลดั้งเดิมเหล่านั้นไม่ถืออีกต่อไป รัฐ Gorard ที่สองคือ OLS นั้นเป็นลูกบุญธรรมเพราะฟิชเชอร์พบว่าผลลัพธ์ในตัวอย่างของการวิเคราะห์ที่ใช้ OLS นั้นมีการเบี่ยงเบนเล็กน้อยกว่าที่ใช้ความแตกต่างแบบสัมบูรณ์ ดังนั้นดูเหมือนว่า OLS อาจมีประโยชน์ในบางสถานการณ์ แม้กระนั้น Gorard จะต้องทราบว่ามีความเห็นพ้องต้องกัน (และเขาอ้างว่าชาวประมงเห็นด้วย) ว่าภายใต้เงื่อนไขในโลกแห่งความเป็นจริง (การวัดที่ไม่สมบูรณ์ของการสังเกตการแจกแจงแบบไม่สม่ำเสมอการศึกษาของประชากร ความแตกต่างที่แน่นอน

คำตอบของ Gorard สำหรับคำถามของคุณ "เราไม่สามารถเพียงเอาค่าสัมบูรณ์ของความแตกต่างมาแทนและรับค่าที่คาดหวังจากสิ่งเหล่านั้นได้หรือ" ใช่ ข้อได้เปรียบอีกประการหนึ่งคือการใช้ความแตกต่างสร้างมาตรการ (มาตรการของข้อผิดพลาดและการเปลี่ยนแปลง) ที่เกี่ยวข้องกับวิธีการที่เราประสบกับความคิดเหล่านั้นในชีวิต Gorard กล่าวว่าลองนึกภาพผู้คนที่แบ่งบิลร้านอาหารอย่างสม่ำเสมอและบางคนอาจสังเกตว่าวิธีการนั้นไม่ยุติธรรม ไม่มีใครที่จะมีข้อผิดพลาดตาราง; ความแตกต่างคือประเด็น

ในที่สุดเมื่อใช้ความแตกต่างแบบสัมบูรณ์เขาบันทึกการปฏิบัติแต่ละการสังเกตอย่างเท่าเทียมกันในขณะที่การเปรียบเทียบความแตกต่างทำให้การสังเกตการณ์มีน้ำหนักมากกว่าคุณภาพที่สังเกตได้ดีกว่าการสังเกตที่คาดการณ์ไว้ได้ดี กล่าวโดยสรุปแรงผลักดันทั่วไปของเขาคือในปัจจุบันมีเหตุผลไม่มากนักที่จะใช้กำลังสองและในทางกลับกันการใช้ความแตกต่างแบบสัมบูรณ์มีข้อดี

อ้างอิง:


1
ขอบคุณ @Jen สิ่งนี้ทำให้ฉันนึกถึงประวัติแป้นพิมพ์ QWERTY เฮ้ทำไมต้องใช้เวลาพิมพ์ QWERTY นานขนาดนี้
toto_tico

5

เนื่องจากสี่เหลี่ยมสามารถอนุญาตให้ใช้การดำเนินการทางคณิตศาสตร์หรือฟังก์ชันอื่น ๆ ได้ง่ายกว่าค่าสัมบูรณ์

ตัวอย่าง: สี่เหลี่ยมสามารถรวม, แตกต่าง, สามารถใช้ในตรีโกณมิติ, ลอการิทึมและฟังก์ชั่นอื่น ๆ ได้อย่างง่ายดาย


2
ฉันสงสัยว่ามี profecy ตอบสนองตนเองที่นี่ เราได้รับ
ความน่าจะเป็นทาง

5

เมื่อเพิ่มตัวแปรสุ่มความแปรปรวนเพิ่มสำหรับการแจกแจงทั้งหมด ความแปรปรวน (และส่วนเบี่ยงเบนมาตรฐาน) เป็นมาตรการที่มีประโยชน์สำหรับการแจกแจงเกือบทั้งหมดและไม่มีการ จำกัด การแจกแจงแบบเกาส์ (หรือที่เรียกว่า "ปกติ") ที่โปรดปรานใช้มันเป็นข้อผิดพลาดของเราวัด การขาดความเป็นเอกลักษณ์เป็นปัญหาร้ายแรงที่มีความแตกต่างอย่างแน่นอนเนื่องจากมักจะมีจำนวนไม่เท่ากันของการวัด "พอดี" และยังเห็นได้ชัดว่า "หนึ่งในกลาง" เป็นที่นิยมมากที่สุด ยิ่งไปกว่านั้นแม้กับคอมพิวเตอร์ทุกวันนี้ประสิทธิภาพการคำนวณก็มีความสำคัญ ฉันทำงานกับชุดข้อมูลขนาดใหญ่และเวลาของ CPU เป็นสิ่งสำคัญ อย่างไรก็ตามไม่มีการวัดค่า "ดีที่สุด" แบบสัมบูรณ์เพียงอย่างเดียวซึ่งชี้ให้เห็นโดยคำตอบก่อนหน้านี้ สถานการณ์ที่แตกต่างกันบางครั้งเรียกร้องให้มีมาตรการที่แตกต่างกัน


2
ฉันยังคงไม่มั่นใจว่าความแปรปรวนมีประโยชน์มากสำหรับการแจกแจงแบบไม่สมมาตร
Frank Harrell

สิ่งที่เกี่ยวกับคู่ของ "กึ่งแปรปรวน" คู่หนึ่งขึ้นและหนึ่งลง
kjetil b halvorsen

3

โดยปกติคุณสามารถอธิบายการกระจายตัวของการแจกแจงในทางใดทางหนึ่งที่มีความหมาย (ส่วนเบี่ยงเบนสัมบูรณ์ควอนไทล์ ฯลฯ )

ข้อเท็จจริงที่ดีอย่างหนึ่งคือความแปรปรวนเป็นช่วงเวลากลางที่สองและการแจกแจงทุกครั้งจะถูกอธิบายอย่างไม่ซ้ำกันในช่วงเวลาถ้ามันมีอยู่ ความจริงอีกอย่างที่ดีคือความแปรปรวนทางคณิตศาสตร์นั้นง่ายกว่าการเปรียบเทียบใด ๆ อีกความจริงก็คือความแปรปรวนเป็นหนึ่งในสองพารามิเตอร์ของการแจกแจงแบบปกติสำหรับการ parametrization ปกติและการแจกแจงแบบปกติมีเพียงช่วงเวลากลางที่ไม่เป็นศูนย์ 2 อันซึ่งก็คือพารามิเตอร์สองตัวนั้น แม้แต่การแจกแจงแบบไม่ปกติก็สามารถช่วยคิดในกรอบปกติได้

ดังที่ฉันเห็นเหตุผลที่มีค่าเบี่ยงเบนมาตรฐานอยู่ในแอปพลิเคชันสแควร์รูทของความแปรปรวนจะปรากฏเป็นประจำ (เช่นสร้างมาตรฐานการแปรปรวนแบบสุ่ม) ซึ่งจำเป็นต้องมีชื่อสำหรับมัน


1
ถ้าฉันจำได้อย่างถูกต้องการแจกแจงแบบล็อกปกติไม่ใช่ช่วงเวลาที่กำหนดไว้
ความน่าจะเป็นทางการ

1
@probabilityislogic แน่นอนว่าเป็นเรื่องจริงให้ดู en.wikipedia.org/wiki/Log-normal_distribution ในส่วน "ฟังก์ชันลักษณะและฟังก์ชันสร้างช่วงเวลา"
kjetil b halvorsen

1

วิธีการที่แตกต่างและเข้าใจง่ายกว่าคือเมื่อคุณคิดถึงการถดถอยเชิงเส้นกับการถดถอยแบบมัธยฐาน

สมมติว่ารูปแบบของเราก็คือว่าx จากนั้นเราจะพบขโดย minimisize ที่คาดว่าจะยืดเหลือ 2บีตา= หาเรื่องนาทีE ( Y - x ) 2E(y|x)=xββ=argminbE(yxb)2

ถ้าหากแบบจำลองของเราคือ Medianเราจะพบการประมาณค่าพารามิเตอร์ของเราโดยการลดค่าสัมบูรณ์ที่เหลืออยู่ให้น้อยที่สุด.บีตา= หาเรื่องนาทีE | y - x b |(y|x)=xββ=argminbE|yxb|

กล่าวอีกนัยหนึ่งว่าจะใช้ข้อผิดพลาดสัมบูรณ์หรือกำลังสองขึ้นอยู่กับว่าคุณต้องการสร้างแบบจำลองค่าที่คาดหวังหรือค่ามัธยฐาน

ถ้าการกระจายตัวอย่างเช่นแสดง heteroscedasticity เบ้นั้นมีความแตกต่างใหญ่ในวิธีการที่ความลาดชันของมูลค่าที่คาดหวังของการเปลี่ยนแปลงมากกว่าวิธีลาดชันมีไว้สำหรับค่ามัธยฐานค่าของYx yyxy

Koenker และฮอลล็อคมีชิ้นส่วนที่ดีในการถดถอย quantile ที่ถดถอยแบ่งเป็นกรณีพิเศษ: http://master272.com/finance/QR/QRJEP.pdf


0

ฉันเดาว่านี่คือ: ประชากรส่วนใหญ่ (กระจาย) มีแนวโน้มที่จะชุมนุมรอบค่าเฉลี่ย ค่าที่อยู่ไกลกว่านั้นมาจากค่าเฉลี่ย, ยิ่งหายาก เพื่อที่จะแสดงให้เห็นอย่างชัดเจนว่าค่า "นอกบรรทัด" นั้นเป็นอย่างไรจำเป็นต้องคำนึงถึงทั้งระยะห่างจากค่าเฉลี่ยและความหายากของการเกิดขึ้น การยกกำลังความแตกต่างจากค่าเฉลี่ยนั้นทำได้เมื่อเทียบกับค่าที่มีการเบี่ยงเบนน้อยกว่า เมื่อความแปรปรวนทั้งหมดเฉลี่ยแล้วมันก็โอเคที่จะใช้สแควร์รูทซึ่งจะส่งคืนหน่วยไปยังมิติเดิม


2
สิ่งนี้ไม่ได้อธิบายว่าทำไมคุณไม่สามารถใช้ค่าสัมบูรณ์ของความแตกต่างได้ ดูเหมือนว่าแนวคิดจะง่ายกว่าสำหรับนักเรียนสถิติ 101 ส่วนใหญ่และมันจะ "คำนึงถึงทั้งระยะห่างจากค่าเฉลี่ยและความหายากของการเกิดขึ้น
gung

ฉันคิดว่าค่าสัมบูรณ์ของความแตกต่างจะแสดงความแตกต่างจากค่าเฉลี่ยเท่านั้นและจะไม่คำนึงถึงความจริงที่ว่าความแตกต่างที่มีขนาดใหญ่เป็นสองเท่ารบกวนการกระจายตัวแบบปกติ
ซามูเอลเบอร์รี่

2
เหตุใด "ทวีคูณก่อกวน" จึงสำคัญและไม่พูดว่า "ก่อกวนก่อกวน" หรือ "ก่อกวนก่อกวนสี่เท่า"? ดูเหมือนว่าคำตอบนี้จะแทนที่คำถามเดิมด้วยคำถามที่เทียบเท่า
whuber

0

กำลังขยายเพิ่มความเบี่ยงเบน

หากตัวอย่างของคุณมีค่าที่อยู่เหนือแผนภูมิทั้งหมดเพื่อนำ 68.2% ภายในส่วนเบี่ยงเบนมาตรฐานแรกค่าเบี่ยงเบนมาตรฐานของคุณต้องกว้างขึ้นเล็กน้อย หากข้อมูลของคุณมีแนวโน้มที่จะลดลงโดยเฉลี่ย then ก็จะเข้มงวดขึ้น

บางคนบอกว่าเป็นการทำให้การคำนวณง่ายขึ้น การใช้สแควร์รูทที่เป็นบวกของสแควร์จะได้รับการแก้ไขเพื่อให้อาร์กิวเมนต์ไม่ลอย

|x|=x2

ดังนั้นหากความเรียบง่ายเชิงพีชคณิตเป็นเป้าหมายดังนั้นมันจะมีลักษณะเช่นนี้:

σ=E[(xμ)2]ซึ่งให้ผลลัพธ์แบบเดียวกับ .E[|xμ|]

เห็นได้ชัดว่าการยกกำลังสองนี้มีผลในการขยายข้อผิดพลาดภายนอก (doh!)


จากการตั้งค่าสถานะที่ฉันเพิ่งประมวลผลฉันสงสัยว่าผู้ลงคะแนนไม่เข้าใจอย่างสมบูรณ์ว่าคำตอบนี้ตอบคำถามอย่างไร ฉันเชื่อว่าฉันเห็นการเชื่อมต่อ (แต่คุณอาจพิจารณาทำการแก้ไขเพื่อช่วยให้ผู้อ่านคนอื่น ๆ ชื่นชมคะแนนของคุณได้ดีขึ้น) อย่างไรก็ตามย่อหน้าแรกของคุณทำให้ฉันรู้สึกว่าเป็นข้อโต้แย้งแบบวน: ค่า 68.2% นั้นมาจากคุณสมบัติของส่วนเบี่ยงเบนมาตรฐานดังนั้นการเรียกใช้หมายเลขนั้นจะช่วยปรับการใช้ SD ได้อย่างไรแทนที่จะใช้บรรทัดฐานอื่น ๆของการเบี่ยงเบน จากค่าเฉลี่ยเป็นวิธีหาปริมาณการแพร่กระจายของการแจกแจง? Lp
whuber

ย่อหน้าแรกคือเหตุผลของการลงคะแนนเสียงของฉัน
Alexis

3
@Preston Thayne: เนื่องจากค่าเบี่ยงเบนมาตรฐานไม่ใช่ค่าที่คาดไว้sqrt((x-mu)^2)ดังนั้นสูตรของคุณจึงทำให้เข้าใจผิด นอกจากนี้เพียงเพราะ squaring มีผลของการขยายการเบี่ยงเบนที่มีขนาดใหญ่ไม่ได้หมายความว่านี่คือเหตุผลในการเลือกที่แปรปรวนในช่วงที่MAD หากมีสิ่งใดที่เป็นคุณสมบัติเป็นกลางเนื่องจากอาจเกิดเราต้องการบางสิ่งบางอย่างมากขึ้นแข็งแกร่งเหมือนMAD สุดท้ายนี้ความจริงที่ว่าความแปรปรวนทางคณิตศาสตร์นั้นง่ายกว่าMADซึ่งเป็นประเด็นทางคณิตศาสตร์ที่ลึกกว่านั้นคุณจึงนำเสนอในบทความนี้
Steve S

0

ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?

เรายกกำลังสองความแตกต่างของ x จากค่าเฉลี่ยเนื่องจากระยะทางแบบยุคลิดซึ่งเป็นสัดส่วนกับสแควร์รูทขององศาอิสระ (จำนวน x, การวัดประชากร) เป็นวิธีการกระจายตัวที่ดีที่สุด

กำลังคำนวณระยะทาง

ระยะทางจากจุด 0 ถึงจุด 5 คืออะไร

  • 50=5 ,
  • |05|=5และ
  • 52=5

โอเคนั่นมันเล็กน้อยเพราะมันเป็นมิติเดียว

ระยะทางสำหรับจุดที่จุด 0, 0 ถึงจุด 3, 4 เป็นอย่างไร?

หากเราสามารถไปในมิติเดียวในเวลา (เช่นในบล็อกเมือง) จากนั้นเราก็เพิ่มตัวเลขขึ้น (บางครั้งเรียกว่าระยะทางแมนฮัตตัน)

แต่จะเป็นสองมิติในคราวเดียว? จากนั้น (ตามทฤษฏีพีทาโกรัสเราทุกคนเรียนรู้ในโรงเรียนมัธยม) เรากำหนดระยะห่างในแต่ละมิติรวมกำลังสองจากนั้นใช้สแควร์รูทเพื่อหาระยะทางจากจุดกำเนิดถึงจุด

32+42=25=5

ระยะทางจากจุดที่ 0, 0, 0 ถึงจุด 1, 2, 2?

นี่เป็นเพียง

12+22+22=9=3

เพราะระยะทางสำหรับสองคนแรกของ x รูปแบบขาสำหรับการคำนวณระยะทางรวมกับ x สุดท้าย

x12+x222+x32=x12+x22+x32

เราสามารถขยายกฎการยกกำลังสองของระยะแต่ละมิติได้โดยทั่วไปนี่คือสิ่งที่เราเรียกว่าระยะทางแบบยุคลิดสำหรับการวัดแบบมุมฉากในพื้นที่มิติหลายมิติเช่น:

distance=i=1nxi2

และผลรวมของกำลังสองมุมฉากคือระยะกำลังสอง:

distance2=i=1nxi2

อะไรทำให้การวัดมุมฉาก (หรือมุมฉาก) เป็นอีกมุมมองหนึ่ง? เงื่อนไขคือไม่มีความสัมพันธ์ระหว่างการวัดทั้งสอง เราจะมองหาการวัดเหล่านี้ให้เป็นอิสระและกระจายเป็นรายบุคคล ( iid )

ความแปรปรวน

ตอนนี้จำสูตรสำหรับความแปรปรวนประชากร (ซึ่งเราจะได้ค่าเบี่ยงเบนมาตรฐาน):

σ2=i=1n(xiμ)2n

หากเรามีศูนย์กลางข้อมูลที่ 0 โดยการลบค่าเฉลี่ยเรามี:

σ2=i=1n(xi)2n

ดังนั้นเราเห็นความแปรปรวนเป็นระยะทางกำลังสองหารด้วยจำนวนองศาอิสระ (จำนวนมิติที่ตัวแปรอิสระแปรผัน) นี่เป็นผลงานเฉลี่ยต่อต่อการวัด "ค่าเฉลี่ยความแปรปรวนกำลังสอง" ก็เป็นคำที่เหมาะสมเช่นกันdistance2

ส่วนเบี่ยงเบนมาตรฐาน

จากนั้นเรามีค่าเบี่ยงเบนมาตรฐานซึ่งก็แค่สแควร์รูทของความแปรปรวน:

σ=i=1n(xiμ)2n

ซึ่งเท่ากับระยะห่างหารด้วยสแควร์รูทขององศาอิสระ:

σ=i=1n(xi)2n

ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย

Mean Absolute Deviation (MAD) คือการวัดการกระจายตัวที่ใช้ระยะทางแมนฮัตตันหรือผลรวมของค่าสัมบูรณ์ของความแตกต่างจากค่าเฉลี่ย

MAD=i=1n|xiμ|n

อีกครั้งสมมติว่าข้อมูลอยู่กึ่งกลาง (ลบค่าเฉลี่ย) เรามีระยะทางแมนฮัตตันหารด้วยจำนวนการวัด:

MAD=i=1n|xi|n

อภิปรายผล

  • ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยอยู่ที่ประมาณ. 8 เท่า ( จริง2/π ) ขนาดของส่วนเบี่ยงเบนมาตรฐานสำหรับชุดข้อมูลที่กระจายแบบปกติ
  • ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยนั้นน้อยกว่าหรือเท่ากับส่วนเบี่ยงเบนมาตรฐานโดยไม่คำนึงถึงการแจกแจง MAD เข้าใจการกระจายตัวของชุดข้อมูลที่มีค่ามากเมื่อเทียบกับค่าเบี่ยงเบนมาตรฐาน
  • ค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์นั้นแข็งแกร่งกว่าค่าผิดปกติ (เช่นค่าผิดปกติไม่มีผลกระทบต่อสถิติเท่าที่ควรกับค่าเบี่ยงเบนมาตรฐาน
  • การพูดทางเรขาคณิตถ้าการวัดไม่ได้เป็นมุมฉากซึ่งกันและกัน (iid) - ตัวอย่างเช่นถ้าพวกมันมีความสัมพันธ์เชิงบวกหมายความว่าการเบี่ยงเบนสัมบูรณ์จะเป็นสถิติเชิงพรรณนาที่ดีกว่าค่าเบี่ยงเบนมาตรฐานซึ่งอาศัยระยะทางแบบยุคลิด )

ตารางนี้แสดงข้อมูลข้างต้นอย่างกระชับยิ่งขึ้น:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

ความคิดเห็นที่:

คุณมีการอ้างอิงสำหรับ "เฉลี่ยเบี่ยงเบนสัมบูรณ์เป็นเรื่องเกี่ยวกับ. 8 เท่าของขนาดเบี่ยงเบนมาตรฐานสำหรับชุดข้อมูลที่กระจายตามปกติ"? การจำลองที่ฉันใช้แสดงสิ่งนี้ไม่ถูกต้อง

นี่คือตัวอย่างการจำลอง 10 ล้านตัวอย่างจากการแจกแจงแบบปกติมาตรฐาน:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

ข้อสรุป

เราชอบความแตกต่างกำลังสองเมื่อคำนวณการกระจายตัวเพราะเราสามารถใช้ประโยชน์จากระยะทางแบบยุคลิดซึ่งทำให้เรามีสถิติการกระจายตัวของ discriptive ดีกว่า เมื่อมีค่าที่ค่อนข้างสูงกว่าระยะทางแบบยุคลิดนั้นเป็นค่าทางสถิติในขณะที่ระยะทางแมนฮัตตันให้น้ำหนักแต่ละการวัดเท่ากัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.