ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยกับส่วนเบี่ยงเบนมาตรฐาน


34

ในหนังสือข้อความ"คณิตศาสตร์ที่ครอบคลุมแบบใหม่สำหรับระดับ O"โดยเกรียร์ (1983) ฉันเห็นการเบี่ยงเบนเฉลี่ยที่คำนวณดังนี้:

สรุปความแตกต่างที่แน่นอนระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ย ตลอดบทที่ระยะเบี่ยงเบนเฉลี่ยจะใช้

แต่ฉันเพิ่งเห็นการอ้างอิงหลายอย่างที่ใช้ค่าเบี่ยงเบนมาตรฐานของคำศัพท์และนี่คือสิ่งที่พวกเขาทำ:

คำนวณกำลังสองของความแตกต่างระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ยและในที่สุดก็เป็นรากของคำตอบ

ฉันลองทั้งสองวิธีในชุดข้อมูลทั่วไปและคำตอบต่างกัน ฉันไม่ใช่นักสถิติ ฉันสับสนในขณะที่พยายามสอนการเบี่ยงเบนให้กับลูก ๆ ของฉัน

ดังนั้นในระยะสั้นค่าเบี่ยงเบนมาตรฐานของคำศัพท์และค่าเบี่ยงเบนเฉลี่ยเท่ากันหรือเป็นตำราตำราเก่าของฉันหรือไม่


2
ทั้งสองปริมาณแตกต่างกัน พวกเขาน้ำหนักข้อมูลที่แตกต่าง ส่วนเบี่ยงเบนมาตรฐานจะมีขนาดใหญ่กว่าและค่อนข้างได้รับผลกระทบจากค่าที่มากขึ้น ค่าเบี่ยงเบนมาตรฐาน (ส่วนใหญ่โดยเฉพาะอย่างยิ่งรุ่น n- ส่วน) สามารถคิดว่าเป็นค่าเบี่ยงเบนรากหมายถึงสแควร์ ส่วนเบี่ยงเบนมาตรฐานมักใช้มากกว่า
Glen_b

6
มีความเกี่ยวข้องอย่างใกล้ชิด : stats.stackexchange.com/questions/118/… .
whuber


1
อนึ่งเหตุผลหนึ่งที่คนมักชอบเบี่ยงเบนมาตรฐานก็เพราะความแปรปรวนของผลรวมของตัวแปรสุ่มที่ไม่เกี่ยวข้องเพิ่มขึ้น (และคนที่เกี่ยวข้องก็มีสูตรง่าย ๆ เช่นกัน) นั่นไม่ได้เกิดขึ้นกับค่าเบี่ยงเบนเฉลี่ย
Glen_b

2
@ Alexis การใช้ถ้อยคำไม่ดี สำหรับตัวแปรสุ่มอิสระ Var (X + Y) = Var (X) + Var (Y) ความจริงนี้ถูกใช้ทั่วสถานที่ (มันนำไปสู่ที่คุ้นเคยคำศัพท์ที่เป็นมาตรฐานที่เกี่ยวข้องกับสูตรที่เกี่ยวข้องกับวิธีการเช่นในตัวอย่างหนึ่งสถิติ t- ตัวอย่าง) ไม่มีข้อเท็จจริงทั่วไปเหมือนกันสำหรับการเบี่ยงเบนค่าเฉลี่ย n
Glen_b

คำตอบ:


26

ทั้งสองตอบว่าค่าของคุณถูกกระจายไปทั่วค่าเฉลี่ยของการสังเกต

การสังเกตที่ 1 ภายใต้ค่าเฉลี่ยนั้นเท่ากัน "ไกล" จากค่าเฉลี่ยเป็นค่าที่มากกว่า 1 ค่าเฉลี่ย ดังนั้นคุณควรละเลยสัญลักษณ์ของการเบี่ยงเบน สามารถทำได้สองวิธี:

  • คำนวณค่าสัมบูรณ์ของส่วนเบี่ยงเบนและหาผลรวมเหล่านี้

  • ยกกำลังสองเบี่ยงเบนและรวมกำลังสองเหล่านี้ เนื่องจากตารางคุณให้น้ำหนักกับการเบี่ยงเบนสูงมากขึ้นดังนั้นผลรวมของสี่เหลี่ยมจัตุรัสเหล่านี้จะแตกต่างจากผลรวมของค่าเฉลี่ย

หลังจากคำนวณ "ผลรวมของความเบี่ยงเบนสัมบูรณ์" หรือ "สแควร์รูทของผลรวมของความเบี่ยงเบนกำลังสอง" คุณจะให้ค่าเฉลี่ยพวกเขาเพื่อรับ "ค่าเบี่ยงเบนเฉลี่ย" และ "ส่วนเบี่ยงเบนมาตรฐาน" ตามลำดับ

ค่าเบี่ยงเบนเฉลี่ยไม่ค่อยถูกนำมาใช้


ดังนั้นเมื่อมีใครบอกว่า 'ส่วนเบี่ยงเบน' พวกเขาหมายถึง 'ส่วนเบี่ยงเบนมาตรฐาน' หรือไม่?
itsols

ฉันยอมรับว่า 1 ด้านบนหรือด้านล่างจะระบุ 'การเปลี่ยนแปลง' หรือ 'การกระจาย' ที่มีความหมายจากมุมมองของคนทั่วไป แต่การยกกำลังสองมันจะให้ค่าที่มากกว่าและนั่นอาจไม่ใช่ 'การเปลี่ยนแปลงที่แท้จริง' ของฉัน บางทีฉันผิด แต่นั่นเป็นวิธีที่ฉันเห็น: /
มันเป็น

ส่วนใหญ่แล้วจะใช้คำเบี่ยงเบนมาตรฐาน (รากที่สองของความแปรปรวน) โดยทั่วไปแล้วการคำนวณกำลังสองจะทำในขณะที่มันอำนวยความสะดวกในการคำนวณอื่น ๆ อีกมากมาย
Kasper

1
@itsols โดยทางเทคนิคคุณควรระบุประเภทของค่าเบี่ยงเบนทางสถิติที่คุณกำลังคำนวณสำหรับชุดข้อมูล - ส่วนเบี่ยงเบนคำด้วยตัวของมันเองควรอ้างถึงการเบี่ยงเบนของ datapoint เดียวจากค่าเฉลี่ย (ในวิธีที่ Kasper ใช้ในคำตอบ )
AmeliaBR

@itsols +1 จาก Amelia อันที่จริงไม่มีใครว่าของชุดข้อมูลสถิติเป็นเพียงแค่ "เบี่ยงเบน" สถิติคือ "ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย" หรือ "รากของค่าเบี่ยงเบนเฉลี่ยกำลังสอง" หรือเช่นนั้น
ttnphns

15

วันนี้ค่าทางสถิติส่วนใหญ่คำนวณโดยโปรแกรมคอมพิวเตอร์ (Excel, ... ) ไม่ใช่โดยเครื่องคิดเลขแบบพกพาอีกต่อไป ดังนั้นฉันจะวางตัวว่าการคำนวณ "ค่าเบี่ยงเบนเฉลี่ย" นั้นไม่ยุ่งยากกว่าการคำนวณ "ค่าเบี่ยงเบนมาตรฐาน" แม้ว่าส่วนเบี่ยงเบนมาตรฐานอาจมี "... คุณสมบัติทางคณิตศาสตร์ที่ทำให้มีประโยชน์มากขึ้นในสถิติ" ในความเป็นจริงการบิดเบือนแนวคิดของความแปรปรวนจากค่าเฉลี่ยเนื่องจากให้น้ำหนักพิเศษไปยังจุดข้อมูลไกลจากค่าเฉลี่ย อาจใช้เวลาสักครู่ แต่สำหรับฉันหนึ่งหวังว่านักสถิติพัฒนากลับไปใช้ "หมายถึงการเบี่ยงเบน" บ่อยครั้งมากขึ้นเมื่อพูดคุยการกระจายระหว่างจุดข้อมูล - มันถูกต้องมากขึ้นแสดงถึงวิธีการที่เราคิดว่าการกระจาย


คุณอ้างสิทธิ์พิเศษว่าผู้คนที่มีคุณสมบัติในเชิงสถิติคิดอย่างไร แหล่งข้อมูลของคุณเกี่ยวกับเรื่องนั้นคืออะไร?
whuber

7
แหล่งที่มาคือคนที่ฉันเคยถามในหัวข้อนี้เช่นเดียวกับตัวฉันเอง เมื่อถูกถาม: คุณคิดรูปแบบของชุดข้อมูลนี้ได้อย่างไร คำตอบนั้นแสดงออกมาในรูปของระยะทางเชิงเส้นตรงจากค่าเฉลี่ย - การตอบสนองไม่รวมสี่เหลี่ยมหรือรากที่สอง ได้รับฉันเป็นวิศวกรไม่ใช่ "นักสถิติ" แต่ฉันจะขอให้คนอื่นท้าทายตัวเองในหัวข้อนี้ ใช่เราชอบคณิตศาสตร์ของการเบี่ยงเบนมาตรฐาน - สนุก แต่นี่เป็นวิธีที่คุณเห็นการเบี่ยงเบนจากค่าเฉลี่ยหรือไม่
andyl

2
มันขึ้นอยู่กับวัตถุประสงค์ สำหรับการสำรวจข้อมูลฉันมักจะใช้การประเมินแบบกระจายตามระดับที่มีประสิทธิภาพเช่นค่าเบี่ยงเบนเฉลี่ยจากค่ามัธยฐานซึ่งโดยปกติแล้วจะใกล้เคียงกับข้อเสนอของคุณ แต่สำหรับงานอื่น ๆ โดยเฉพาะอย่างยิ่งเมื่อมีการประเมินศักยภาพทางความสำคัญทางสถิติการประเมินขนาดตัวอย่างที่เหมาะสมการหามูลค่าของข้อมูลและการตัดสินใจระหว่างกระบวนการทางสถิติที่แข่งขันการคิดในแง่ของความแปรปรวน (และส่วนเบี่ยงเบนมาตรฐาน) คือ สำคัญ ค่าเบี่ยงเบนเฉลี่ยไม่ใช่สิ่งทดแทนเนื่องจากคณิตศาสตร์แสดงให้เห็นอย่างชัดเจน
whuber

1
ลองดูบทความนี้
Pete

@ Pet คุณไปถึงที่นั่นได้อย่างไร?
Vicrobot

9

พวกเขาทั้งสองวัดแนวคิดเดียวกัน แต่ไม่เท่ากัน

คุณกำลังเปรียบเทียบกับ2} เหตุผลสองข้อนี้ไม่เท่ากัน:1n|xix¯|1n(xix¯)2

ประการแรกผู้ประกอบการรากที่ไม่เป็นเชิงเส้นหรือ{ข} ดังนั้นผลรวมของการเบี่ยงเบนสัมบูรณ์ไม่เท่ากับรากที่สองของผลรวมของการเบี่ยงเบนกำลังสองแม้ว่าฟังก์ชันสัมบูรณ์สามารถถูกแทนด้วยฟังก์ชันสี่เหลี่ยมตามด้วยรากที่สอง: เป็นสแควร์รูทหลังจากคำนวณผลรวมแล้วa+ba+b
|xix¯|=(xix¯)2(xix¯)2

ประการที่สอง ,คือตอนนี้ยังอยู่ภายใต้รากในการคำนวณค่าเบี่ยงเบนมาตรฐานn

ลองคำนวณ - ควรให้คำตอบเดียวกับส่วนเบี่ยงเบนเฉลี่ยและช่วยให้คุณเข้าใจ1n(xix¯)2

เหตุผลที่ทำให้ค่าเบี่ยงเบนมาตรฐานเป็นที่ต้องการก็เพราะมันง่ายต่อการคำนวณทางคณิตศาสตร์ในภายหลังเมื่อการคำนวณมีความซับซ้อนมากขึ้น


3
ค่าสัมบูรณ์ของผลรวมไม่โดยทั่วไปเหมือนกับผลรวมของค่าสัมบูรณ์! ทั้งสแควร์สแควร์รูทหรือฟังก์ชั่นสัมบูรณ์เป็นแบบเชิงเส้นซึ่งเป็นสาเหตุที่ผลรวมหลังจากการใช้ฟังก์ชั่นแตกต่างจากการใช้ฟังก์ชั่นหลังจากการรวม
AmeliaBR

@AmeliaBR คุณแน่นอนถูกต้องสมบูรณ์แบบ!
ltronneberg

ส่วนที่เหลือของข้อโต้แย้งนั้นดี แต่นี่คือเหตุผลที่ฉันตัดสินใจที่จะแก้ไขคำสั่งที่มีปัญหา
AmeliaBR

8

@itsols ฉันจะเพิ่มความคิดที่สำคัญของแคสเปอร์The mean deviation is rarely usedไว้ เพราะเหตุใดค่าเบี่ยงเบนมาตรฐานจึงถือว่าโดยทั่วไปเป็นเครื่องวัดความแปรปรวนได้ดีกว่าค่าเบี่ยงเบนสัมบูรณ์ เพราะค่าเฉลี่ยเลขคณิตคือโลกัสของผลรวมขั้นต่ำของกำลังสอง (และไม่ใช่ผลรวมแน่นอน) จากส่วนเบี่ยงเบน

สมมติว่าคุณต้องการประเมินระดับของความบริสุทธิ์ใจ จากนั้นคุณอาจจะไม่ถามใครสักคนเกี่ยวกับว่าเขาพร้อมที่จะให้เงินใน "สถานการณ์ทั่วไป" ของชีวิต คุณจะเลือกถามว่าเขาพร้อมที่จะทำในสถานการณ์ที่ไม่มั่นคงซึ่งเขามีความเป็นไปได้น้อยที่สุดในการใช้ชีวิตของเขาเอง คือจำนวนเงินที่เห็นแก่ผู้อื่นในสถานการณ์เมื่อจำนวนเงินนั้นน้อยที่สุดของบุคคล?

เช่นเดียวกันระดับของความแปรปรวนของข้อมูลเหล่านี้คืออะไร? ดัชนีการวัดที่ดีที่สุดโดยสังหรณ์ใจคือดัชนีที่ย่อเล็กสุด (หรือขยายให้ใหญ่สุด) จนถึงขีด จำกัด ในบริบทนี้ บริบทคือ "รอบค่าเฉลี่ยเลขคณิต" จากนั้นเซนต์ การเบี่ยงเบนเป็นตัวเลือกที่ดีที่สุดในแง่นี้ หากบริบทเป็น "รอบค่ามัธยฐาน" ดังนั้นค่าเฉลี่ย | ส่วนเบี่ยงเบน | จะเป็นทางเลือกที่ดีที่สุดเพราะค่ามัธยฐานเป็นสถานที่ของผลรวมเบี่ยงเบนน้อยที่สุดจากมัน


4
การให้เหตุผลของคุณสำหรับ SD โดยอิงจาก Locus เป็นแบบวงกลม คุณกำลังพิสูจน์ SD โดยให้ความสำคัญเป็นพิเศษกับค่าเฉลี่ยเลขคณิต - รายการทั้งหมดนี้แสดงว่าพวกเขามีความสัมพันธ์ไม่ใช่ว่า SD เป็นพิเศษ เราสามารถให้ความสำคัญกับค่ามัธยฐานในทำนองเดียวกันซึ่งเป็นสถานที่ของผลรวมน้อยที่สุดของการสูญเสียabsalute เหตุผลที่แท้จริงที่ SD ใช้บ่อยกว่านั้นคือเพราะคณิตศาสตร์ใช้งานได้ง่ายกว่า ... ยิ่งไปกว่านั้นการคำนวณง่ายขึ้น (ทั้งคู่เพราะมีเดียต้องการ "เรียงลำดับ" และเนื่องจากกำลังประมวลผลเร็วกว่าคำสั่งสาขา) การเบี่ยงเบนที่ไม่มีเหตุผลเชิงปรัชญามีคุณค่ามากกว่า
samthebest

7

สิ่งหนึ่งที่ควรค่าแก่การเพิ่มคือเหตุผลที่เป็นไปได้มากที่สุดที่ตำราเรียนอายุ 30 ปีของคุณใช้ค่าเบี่ยงเบนเฉลี่ยแบบสัมบูรณ์ซึ่งแตกต่างจากค่าเบี่ยงเบนมาตรฐานนั่นคือการคำนวณด้วยมือง่ายกว่า (ไม่มีรากที่สอง ตอนนี้เครื่องคิดเลขสามารถเข้าถึงได้ง่ายสำหรับนักเรียนมัธยมไม่มีเหตุผลที่จะไม่ขอให้พวกเขาคำนวณค่าเบี่ยงเบนมาตรฐาน

ยังมีบางสถานการณ์ที่ใช้การเบี่ยงเบนสัมบูรณ์แทนการเบี่ยงเบนมาตรฐานในการปรับแบบจำลองที่ซับซ้อน การเบี่ยงเบนสัมบูรณ์มีความอ่อนไหวต่อค่าผิดปกติน้อยมาก (ค่าห่างจากค่าเฉลี่ย / เส้นแนวโน้ม) เมื่อเทียบกับค่าเบี่ยงเบนมาตรฐานเนื่องจากไม่ได้เป็นสี่เหลี่ยมจัตุรัสระยะห่างนั้นก่อนที่จะเพิ่มลงในค่าจากจุดข้อมูลอื่น เนื่องจากวิธีการที่เหมาะสมของแบบจำลองมีจุดมุ่งหมายเพื่อลดความเบี่ยงเบนทั้งหมดจากเส้นแนวโน้ม (ตามวิธีใดก็ตามที่มีการเบี่ยงเบนวิธีการคำนวณ) วิธีการที่ใช้ค่าเบี่ยงเบนมาตรฐานสามารถจบลงด้วยการสร้างเส้นแนวโน้มที่เบี่ยงเบนออกจากจุดส่วนใหญ่ . การใช้การเบี่ยงเบนสัมบูรณ์ช่วยลดการบิดเบือนนี้ แต่ด้วยค่าใช้จ่ายในการคำนวณเทรนด์ไลน์ที่ซับซ้อนมากขึ้น

นั่นเป็นเพราะอย่างที่คนอื่น ๆ ตั้งข้อสังเกตค่าเบี่ยงเบนมาตรฐานมีคุณสมบัติทางคณิตศาสตร์และความสัมพันธ์ซึ่งโดยทั่วไปจะทำให้มีประโยชน์มากขึ้นในสถิติ แต่ "มีประโยชน์" ไม่ควรสับสนกับความสมบูรณ์แบบ


1
เพียงแค่อยากรู้อยากเห็นสิ่งที่ "คุณสมบัติทางคณิตศาสตร์" ที่ทำให้ SD มีประโยชน์มากขึ้นกว่าค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยคืออะไร? คำตอบที่ยอดเยี่ยมโดยวิธีการ
Weipeng L

@pongba ส่วนเบี่ยงเบนมาตรฐานนั้นมีอยู่จริงในโมเดลทางสถิติจำนวนมากที่ถือว่าการเปลี่ยนแปลงแบบสุ่มจากเอฟเฟกต์หลายอย่างที่สามารถยกเลิกซึ่งกันและกัน (อาคาข้อมูลการกระจายทั่วไป) ซึ่งรวมถึงความแม่นยำของการสุ่มตัวอย่าง (ระยะขอบของข้อผิดพลาด) เมื่อใช้แบบสำรวจจากประชากรจำนวนมาก หากข้อมูลของคุณตรงกับโมเดลนี้คุณสามารถประเมินความน่าจะเป็นในการรับค่าจากจำนวน SD จากค่าเฉลี่ย คุณสามารถคำนวณ SD ของเอฟเฟ็กต์อิสระหลายรายการจาก SD ของแต่ละองค์ประกอบ ดูเพิ่มเติมที่: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

ทั้งสองวัดการกระจายของข้อมูลของคุณโดยการคำนวณระยะทางของข้อมูลกับค่าเฉลี่ย

  1. เบี่ยงเบนสัมบูรณ์เฉลี่ยจะใช้บรรทัดฐาน L1 (จะเรียกว่าแมนฮัตตันระยะทางหรือระยะทางที่เป็นเส้นตรง )
  2. ส่วนเบี่ยงเบนมาตรฐานคือการใช้ L2 บรรทัดฐาน (เรียกว่าระยะทางยุคลิด )

ความแตกต่างระหว่างสองบรรทัดฐานคือค่าเบี่ยงเบนมาตรฐานกำลังคำนวณกำลังสองของความแตกต่างในขณะที่ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยนั้นเป็นการดูที่ความแตกต่างสัมบูรณ์เท่านั้น ดังนั้นค่าผิดปกติขนาดใหญ่จะสร้างการกระจายตัวที่สูงขึ้นเมื่อใช้ค่าเบี่ยงเบนมาตรฐานแทนที่จะเป็นวิธีอื่น ระยะทางแบบยุคลิดก็ใช้บ่อยขึ้นเช่นกัน เหตุผลหลักคือค่าเบี่ยงเบนมาตรฐานมีคุณสมบัติที่ดีเมื่อมีการกระจายข้อมูลตามปกติ ดังนั้นภายใต้สมมติฐานนี้ขอแนะนำให้ใช้ อย่างไรก็ตามคนมักจะทำข้อสันนิษฐานนี้สำหรับข้อมูลซึ่งโดยปกติแล้วจะไม่ได้รับการกระจายซึ่งสร้างปัญหา หากข้อมูลของคุณไม่ได้รับการกระจายโดยปกติคุณยังสามารถใช้ส่วนเบี่ยงเบนมาตรฐาน แต่คุณควรระมัดระวังในการตีความผลลัพธ์

ในที่สุดคุณควรรู้ว่าการวัดการกระจายตัวเป็นกรณีเฉพาะของระยะทาง Minkowskiสำหรับ p = 1 และ p = 2 คุณสามารถเพิ่ม p เพื่อรับมาตรการอื่น ๆ ของการกระจายตัวของข้อมูลของคุณ


นอกจากนี้ยังมีโพสต์เกี่ยวกับ math.stackexchange ในหัวข้อนี้: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience

6

พวกเขาเป็นมาตรการที่คล้ายกันที่พยายามหาปริมาณความคิดเดียวกัน โดยทั่วไปแล้วคุณใช้เซนต์ ความเบี่ยงเบนเนื่องจากมันมีคุณสมบัติที่ดีถ้าคุณทำการสมมุติว่ามีการกระจายตัว

ในทางตรงกันข้ามค่าสัมบูรณ์ในส่วนเบี่ยงเบนหมายถึงทำให้เกิดปัญหาบางอย่างจากมุมมองทางคณิตศาสตร์เนื่องจากคุณไม่สามารถแยกความแตกต่างและคุณไม่สามารถวิเคราะห์ได้อย่างง่ายดาย การอภิปรายบางคนที่นี่


1

ไม่คุณคิดผิด แค่ล้อเล่น. อย่างไรก็ตามมีเหตุผลที่เป็นไปได้หลายประการว่าทำไมเราจึงต้องการคำนวณค่าเบี่ยงเบนมากกว่าแบบมาตรฐานและด้วยวิธีนี้ฉันเห็นด้วยกับมุมมองของพี่น้องวิศวกรรมของฉัน แน่นอนว่าถ้าฉันคำนวณสถิติเพื่อเปรียบเทียบกับเนื้อหาของงานที่มีอยู่ซึ่งแสดงถึงคุณภาพและข้อสรุปเชิงปริมาณฉันก็ติดอยู่กับ std แต่ตัวอย่างเช่นสมมติว่าฉันพยายามวิ่งเร็วอัลกอริธึมการตรวจจับความผิดปกติบนข้อมูลไบนารีที่สร้างด้วยเครื่องจักร ฉันไม่ได้ทำการเปรียบเทียบทางวิชาการเพื่อเป็นเป้าหมายสุดท้าย แต่ฉันสนใจในการอนุมานพื้นฐานเกี่ยวกับ "การแพร่กระจาย" ของการไหลของข้อมูลโดยเฉพาะเกี่ยวกับค่าเฉลี่ยของมัน ฉันสนใจที่จะคำนวณมันซ้ำ ๆ และมีประสิทธิภาพมากที่สุด ในฮาร์ดแวร์อิเล็กทรอนิคส์ดิจิทัลเราเล่นเล่ห์เหลี่ยมสกปรกตลอดเวลา - เรากลั่นการคูณและดิวิชั่นเป็นการเลื่อนด้านซ้ายและขวาตามลำดับและสำหรับ "การคำนวณ" ค่าสัมบูรณ์เราเพียงแค่ใส่เครื่องหมายบิต (และคำนวณส่วนประกอบหนึ่งหรือสองอย่างถ้าจำเป็น ทั้งแปลงง่าย) ดังนั้นตัวเลือกของฉันคือการคำนวณด้วยวิธีการลากนิ้วที่ฉันสามารถทำได้และใช้เกณฑ์เชิงเส้นกับการคำนวณของฉันสำหรับการตรวจจับความผิดปกติอย่างรวดเร็วบนช่วงเวลาที่ต้องการ


1
ส่วนเบี่ยงเบนมาตรฐานสามารถคำนวณได้อย่างมีประสิทธิภาพและง่ายดายด้วยอัลกอริทึมออนไลน์เช่นเดียวกับช่วงเวลาใดก็ได้ (รวมถึงค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย) ดังนั้นความต้องการสำหรับการคำนวณที่รวดเร็วหรือง่ายจะไม่ตัดสิ่งนี้ออก (และจะไม่แยกแยะการประมาณค่าช่วงเวลาใด ๆ ของการแพร่กระจาย)
whuber

0

มาตรการทั้งสองแตกต่างกันแน่นอน ครั้งแรกมักเรียกว่าค่าเฉลี่ยสัมบูรณ์เบี่ยงเบน (MAD) และที่สองคือค่าเบี่ยงเบนมาตรฐาน (STD) ในแอพพลิเคชั่นที่ฝังตัวด้วยพลังการประมวลผลที่ จำกัด อย่างรุนแรงและหน่วยความจำของโปรแกรมที่ จำกัด การหลีกเลี่ยงการคำนวณรากที่สองสามารถเป็นที่ต้องการได้อย่างมาก

จากการทดสอบคร่าวๆอย่างรวดเร็วดูเหมือนว่า MAD = f * STD กับ f บางแห่งระหว่าง 0.78 และ 0.80 สำหรับชุดของ gaussian กระจายตัวอย่างแบบสุ่ม


0

Amar Sagoo มีบทความที่ดีมากที่อธิบายเรื่องนี้: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

ในการเพิ่มความพยายามของฉันเองที่ความเข้าใจที่เข้าใจง่าย:

ค่าเบี่ยงเบนเฉลี่ยเป็นวิธีที่ดีในการถามว่าจุด "เฉลี่ย" ที่ตั้งสมมติฐานมาจากค่าเฉลี่ยนั้นไกลแค่ไหน แต่มันไม่ได้ผลจริง ๆ สำหรับการถามว่าจุดทั้งหมดมาจากกันหรือไกลแค่ไหน "กระจาย" ข้อมูล

ค่าเบี่ยงเบนมาตรฐานคือการถามว่าจุดต่าง ๆ อยู่ไกลแค่ไหนดังนั้นในการรวมข้อมูลที่เป็นประโยชน์มากกว่าเพียงแค่ค่าเบี่ยงเบน (ซึ่งเป็นสาเหตุที่ค่าเบี่ยงเบนเฉลี่ยมักใช้เป็นหินก้าวไปสู่การทำความเข้าใจส่วนเบี่ยงเบนมาตรฐาน)

การเปรียบเทียบที่ดีคือทฤษฎีบทพีทาโกรัส ทฤษฎีบทพีทาโกรัสบอกเราเกี่ยวกับระยะห่างระหว่างจุดในสองมิติโดยการใช้ระยะทางแนวนอนและระยะทางแนวตั้งยกกำลังสองเพิ่มสี่เหลี่ยมและเอาสแควร์รูทของผลรวม

หากคุณมองอย่างใกล้ชิดสูตรสำหรับ (ประชากร) ค่าเบี่ยงเบนมาตรฐานนั้นเหมือนกับทฤษฎีบทพีทาโกรัส แต่มีมากกว่าสองมิติ (และใช้ระยะห่างจากแต่ละจุดถึงค่าเฉลี่ยเท่ากับระยะในแต่ละมิติ) เช่นนี้จะให้ภาพที่แม่นยำที่สุดของ "ระยะทาง" ระหว่างจุดทั้งหมดในชุดข้อมูลของคุณ

หากต้องการผลักดันการเปรียบเทียบนั้นอีกเล็กน้อยค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยก็เหมือนกับการหาค่าเฉลี่ยของระยะทางแนวนอนและแนวตั้งซึ่งสั้นกว่าระยะทางทั้งหมดในขณะที่การเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์จะเพิ่มระยะทางแนวนอนและแนวตั้ง กว่าระยะทางจริง


ฉันถือว่าเมื่อคุณพูดว่าค่าเบี่ยงเบนคุณหมายถึงค่าเบี่ยงเบนจริง ๆ ซึ่งเป็นสิ่งที่ OP กำลังพูดถึง คำศัพท์มีความสำคัญเนื่องจากค่าเบี่ยงเบนเฉลี่ยอยู่ที่ 0 เสมอเกี่ยวกับความแตกต่างระหว่างค่าเบี่ยงเบนสัมบูรณ์และค่าเบี่ยงเบนมาตรฐานทั้งสองเกี่ยวข้องกับการเบี่ยงเบนของคะแนนทั้งหมดจากค่าเฉลี่ย หนึ่งเกี่ยวข้องกับผลรวมของการเบี่ยงเบนสัมบูรณ์จากค่าเฉลี่ยในขณะที่เป็นสแควร์รูทหากผลรวมของการเบี่ยงเบนกำลังสอง ..
Michael Chernick

0

ค่าเบี่ยงเบนมาตรฐานแสดงถึงการกระจายเนื่องจากกระบวนการสุ่ม โดยเฉพาะการวัดทางกายภาพจำนวนมากซึ่งคาดว่าจะเกิดจากผลรวมของกระบวนการอิสระจำนวนมากมีการแจกแจงแบบปกติ (เส้นโค้งระฆัง)

การแจกแจงความน่าจะเป็นปกติจะได้รับจาก: Y=1σ2πe(xμ)22σ2

ที่คือความน่าจะเป็นที่จะได้ค่าตามค่าเฉลี่ยและ …ส่วนเบี่ยงเบนมาตรฐาน!Yxμσ

กล่าวอีกนัยหนึ่งค่าเบี่ยงเบนมาตรฐานคือคำที่เกิดจากตัวแปรสุ่มอิสระที่รวมเข้าด้วยกัน ดังนั้นฉันจึงไม่เห็นด้วยกับคำตอบที่ให้ไว้ที่นี่ - ค่าเบี่ยงเบนมาตรฐานไม่ใช่แค่ทางเลือกสำหรับการเบี่ยงเบนเฉลี่ยซึ่ง "เกิดขึ้นจะสะดวกกว่าสำหรับการคำนวณในภายหลัง" ค่าเบี่ยงเบนมาตรฐานเป็นวิธีที่เหมาะสมในการกระจายตัวของแบบจำลองสำหรับปรากฏการณ์ที่กระจายตัวตามปกติ

หากคุณดูที่สมการคุณจะเห็นค่าเบี่ยงเบนมาตรฐานที่หนักกว่านั้นทำให้ค่าเบี่ยงเบนใหญ่ขึ้นจากค่าเฉลี่ยมากขึ้น โดยสังหรณ์ใจคุณสามารถคิดถึงความเบี่ยงเบนเฉลี่ยในการวัดค่าเบี่ยงเบนเฉลี่ยจริงจากค่าเฉลี่ยในขณะที่ค่าเบี่ยงเบนมาตรฐานสำหรับการแจกแจงรูประฆังหรือที่รู้จักกันในชื่อ "ปกติ" รอบค่าเฉลี่ย ดังนั้นหากข้อมูลของคุณกระจายไปตามปกติส่วนเบี่ยงเบนมาตรฐานจะบอกคุณว่าหากคุณสุ่มตัวอย่างค่ามากขึ้นจะพบประมาณ 68% ภายในค่าเบี่ยงเบนมาตรฐานรอบเดียวกับค่าเฉลี่ย

ในทางกลับกันหากคุณมีตัวแปรสุ่มตัวเดียวการแจกแจงอาจมีลักษณะเป็นสี่เหลี่ยมผืนผ้าโดยมีความน่าจะเป็นที่เท่ากันของค่าที่ปรากฏที่ใดก็ได้ภายในช่วง ในกรณีนี้ค่าเบี่ยงเบนเฉลี่ยอาจเหมาะสมกว่า

TL; DR หากคุณมีข้อมูลที่เกิดจากกระบวนการสุ่มหลาย ๆ อันหรือที่คุณรู้ว่าจะแจกจ่ายได้ตามปกติให้ใช้ฟังก์ชันเบี่ยงเบนมาตรฐาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.