สัญชาตญาณที่อยู่เบื้องหลังส่วนเบี่ยงเบนมาตรฐาน


26

ฉันพยายามที่จะเข้าใจความเบี่ยงเบนมาตรฐานได้ง่ายขึ้น

จากสิ่งที่ฉันเข้าใจมันเป็นตัวแทนของค่าเฉลี่ยของความแตกต่างของชุดการสังเกตในชุดข้อมูลจากค่าเฉลี่ยของชุดข้อมูลนั้น อย่างไรก็ตามมันไม่เท่ากับค่าเฉลี่ยของความแตกต่างเนื่องจากมันให้น้ำหนักมากกว่าการสังเกตเพิ่มเติมจากค่าเฉลี่ย

ว่าฉันมีประชากรของค่าต่อไปนี้ -{1,3,5,7,9}

ค่าเฉลี่ยคือ55

ถ้าฉันวัดการแพร่กระจายตามค่าสัมบูรณ์ที่ฉันได้รับ

i=15|xiμ|5=2.4

ถ้าฉันวัดการแพร่กระจายโดยใช้ค่าเบี่ยงเบนมาตรฐานฉันจะได้รับ

i=15(xiμ)25=2.83

ผลลัพธ์ที่ใช้ค่าเบี่ยงเบนมาตรฐานมีขนาดใหญ่ขึ้นอย่างที่คาดไว้เนื่องจากน้ำหนักที่เพิ่มขึ้นจะให้ค่าเพิ่มเติมจากค่าเฉลี่ย

แต่ถ้าฉันเพิ่งบอกว่าฉันจัดการกับประชากรที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่ฉันจะอนุมานได้อย่างไรว่าประชากรประกอบด้วยค่าบางอย่างเช่น ? ดูเหมือนว่าร่างของนั้นไม่มีกฎเกณฑ์มาก ... ฉันไม่เห็นว่าคุณควรตีความมันอย่างไร ไม่หมายถึงค่าที่มีการแพร่กระจายกว้างมากหรือว่าพวกเขาทั้งหมดคลัสเตอร์แน่นรอบหมายถึง ...52.83{1,3,5,7,9}2.832.83

เมื่อคุณนำเสนอด้วยคำแถลงว่าคุณกำลังเผชิญกับประชากรที่มีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานนั่นบอกอะไรคุณเกี่ยวกับประชากร52.83


2
นี้คำถามที่เกี่ยวข้อง (แม้ว่าจะไม่เหมือนกัน) เพื่อstats.stackexchange.com/q/81986/3277และอีกหนึ่งที่เชื่อมโยงกับมี
ttnphns

1
มันบอกระยะทาง 'ปกติ' จากค่าเฉลี่ย (ระยะทาง RMS) อะไรที่ทำให้ 'ใหญ่' หรือ 'เล็ก' ขึ้นอยู่กับเกณฑ์ของคุณ หากคุณกำลังพยายามวัดค่าความคลาดเคลื่อนทางวิศวกรรมมันอาจมีขนาดใหญ่มาก ในบริบทอื่น ๆ ค่าเบี่ยงเบนมาตรฐานเดียวกันอาจถือได้ว่าค่อนข้างเล็ก
Glen_b -Reinstate Monica

คำตอบ:


13

สัญชาตญาณของฉันคือการเบี่ยงเบนมาตรฐานคือ: การวัดการแพร่กระจายของข้อมูล

คุณมีจุดที่ดีว่าไม่ว่าจะกว้างหรือแคบก็ขึ้นอยู่กับสมมติฐานที่เราใช้สำหรับการกระจายข้อมูล

Caveat: การวัดการแพร่กระจายมีประโยชน์มากที่สุดเมื่อการกระจายข้อมูลของคุณมีความสมมาตรรอบค่าเฉลี่ยและมีความแปรปรวนค่อนข้างใกล้เคียงกับการแจกแจงแบบปกติ (ซึ่งหมายความว่าเป็นค่าประมาณปกติ)

ในกรณีที่ข้อมูลมีค่าประมาณปกติค่าเบี่ยงเบนมาตรฐานจะมีการตีความแบบบัญญัติ:

  • ภูมิภาค: ตัวอย่างหมายถึง +/- 1 ส่วนเบี่ยงเบนมาตรฐานมีประมาณ 68% ของข้อมูล
  • ภูมิภาค: ตัวอย่างค่าเฉลี่ย +/- 2 ส่วนเบี่ยงเบนมาตรฐานมีข้อมูลประมาณ 95%
  • ภูมิภาค: ตัวอย่างหมายถึง +/- 3 ส่วนเบี่ยงเบนมาตรฐานมีประมาณ 99% ของข้อมูล

(ดูกราฟิกแรกในWiki )

นี่หมายความว่าถ้าเรารู้ว่าค่าเฉลี่ยของประชากรคือ 5 และค่าเบี่ยงเบนมาตรฐานคือ 2.83 และเราถือว่าการกระจายตัวอยู่ที่ประมาณปกติฉันจะบอกคุณว่าฉันแน่ใจว่าถ้าเราทำการสังเกตจำนวนมากเพียง 5% น้อยกว่า 0.4 = 5 - 2 * 2.3 หรือใหญ่กว่า 9.6 = 5 + 2 * 2.3

สังเกตว่าอะไรคือผลกระทบของการเบี่ยงเบนมาตรฐานในช่วงความมั่นใจของเรา (ยิ่งแพร่กระจายยิ่งมีความไม่แน่นอนมากขึ้น)

นอกจากนี้ในกรณีทั่วไปที่ข้อมูลไม่ได้ประมาณปกติ แต่ก็ยังสมมาตรคุณรู้ว่ามีบางส่วนที่:α

  • ภูมิภาค: ตัวอย่างหมายถึง +/-ส่วนเบี่ยงเบนมาตรฐานมีข้อมูลประมาณ 95%α

คุณสามารถเรียนรู้จากตัวอย่างย่อยหรือสมมติว่าและสิ่งนี้จะให้กฎง่ายๆสำหรับการคำนวณในหัวของคุณว่าการคาดการณ์ในอนาคตที่คาดว่าจะเกิดขึ้นหรือการสังเกตใหม่ใดที่สามารถพิจารณาได้ว่า ค่าผิดปกติ (จำไว้ในใจว่า!)αα=2

ฉันไม่เห็นว่าคุณควรตีความมันอย่างไร 2.83 หมายถึงค่าที่มีการแพร่กระจายกว้างมากหรือพวกเขาทั้งหมดคลัสเตอร์อย่างแน่นหนารอบค่าเฉลี่ย ...

ฉันเดาคำถามทุกข้อที่ถามว่า "กว้างหรือแคบ" ควรมี: "ที่เกี่ยวข้องกับอะไร" หนึ่งข้อเสนอแนะอาจใช้การกระจายที่รู้จักกันดีเป็นข้อมูลอ้างอิง มันอาจจะมีประโยชน์ที่จะคิดเกี่ยวกับ: ขึ้นอยู่กับบริบท: "มันกว้างกว่าหรือแน่นกว่าปกติ / ปัวซองหรือไม่"

แก้ไข: ขึ้นอยู่กับคำแนะนำที่เป็นประโยชน์ในความคิดเห็นอีกหนึ่งแง่มุมเกี่ยวกับส่วนเบี่ยงเบนมาตรฐานเป็นการวัดระยะทาง

อีกสัญชาติญาณของประโยชน์ของการเบี่ยงเบนมาตรฐานคือมันเป็นการวัดระยะทางระหว่างข้อมูลตัวอย่างและค่าเฉลี่ย :sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

จากการเปรียบเทียบค่าเฉลี่ยของข้อผิดพลาดกำลังสอง (MSE) ซึ่งเป็นหนึ่งในข้อผิดพลาดที่ได้รับความนิยมมากที่สุดในสถิติถูกกำหนดเป็น:

MSE=1ni=1n(Yi^Yi)2

คำถามที่สามารถยกทำไมฟังก์ชั่นระยะทางดังกล่าวข้างต้น? ทำไมยกกำลังสองระยะทางและไม่ใช่ระยะทางที่แน่นอน? แล้วทำไมเราถึงนำสแควร์รูท?

ฟังก์ชั่นมีข้อดีคือเราสามารถแยกความแตกต่างและย่อให้เล็กสุดได้อย่างง่ายดาย เท่าที่เกี่ยวข้องสแควร์รูทมันจะเพิ่มความสามารถในการตีความตามที่แปลงข้อผิดพลาดกลับเป็นสเกลของข้อมูลที่เราสังเกตเห็น


ทำไมคุณถึงบอกว่าการวัดการแพร่กระจายนั้นมีประโยชน์มากที่สุดเมื่อข้อมูลเป็นปกติ สำหรับฉันดูเหมือนว่าชุดข้อมูลใด ๆ มีการแพร่กระจายและค่าเบี่ยงเบนมาตรฐานเป็นบทสรุปของการแพร่กระจายแม้ว่ามันจะไม่ได้จับรูปร่างของการแพร่กระจาย
Michael Lew

แน่นอนว่าคุณพูดถูก แต่ฉันไม่ได้อ้างว่าค่าเบี่ยงเบนมาตรฐานนั้นขึ้นอยู่กับรูปร่างของการแจกแจง แต่อย่างใด เพียงชี้ให้เห็นว่าหากคุณมีความรู้เกี่ยวกับรูปร่าง (หรือคุณพร้อมที่จะทำให้สมมติฐานนี้) ก็มักจะเป็นข้อมูลที่เป็นประโยชน์มากขึ้น ในทำนองเดียวกันค่าเฉลี่ยตัวอย่างคือตัวบ่งชี้ที่ดีของข้อมูลของคุณหากคุณสามารถตั้งสมมติฐานทั่วไปเกี่ยวกับการแจกแจงได้
หมายต่อความหมาย

เหตุผลที่ฉันชอบในการใช้รูปสี่เหลี่ยมจัตุรัสแทนค่าสัมบูรณ์เป็นวิธีที่มันเป็นลอการิทึมของความน่าจะเป็นของบางเกาส์เซียน ดังนั้นหากคุณเชื่อว่าข้อผิดพลาดนั้นเป็นแบบเกาส์เซียนในธรรมชาติและบิตนั้นเป็นวิธีที่ดีในการวัดข้อมูลดังนั้นคุณควรใช้ข้อผิดพลาดกำลังสอง
qbolec

5

มันอาจช่วยให้รู้ว่าหมายถึงจะคล้ายคลึงกับจุดศูนย์กลางมวล ความแปรปรวนเป็นโมเมนต์ความเฉื่อย ค่าเบี่ยงเบนมาตรฐานเป็นรัศมีของการหมุน

สำหรับมุมมองทางประวัติศาสตร์ลองดูที่:

George Airy (1875) เกี่ยวกับทฤษฎีพีชคณิตและตัวเลขของข้อผิดพลาดของการสังเกตและการรวมกันของการสังเกต

Karl Pearson (1894) การมีส่วนร่วมในทฤษฎีทางคณิตศาสตร์ของวิวัฒนาการ

พล็อตนี้จาก Airy 1875 แสดงให้เห็นถึงมาตรการต่าง ๆ ของการเบี่ยงเบนซึ่งง่ายต่อการแปลง (หน้า 17) ค่าเบี่ยงเบนมาตรฐานเรียกว่า "error of mean square" มันยังถูกกล่าวถึงในหน้า 20-21 และเขาแสดงให้เห็นถึงการใช้ในหน้า 48 แสดงว่าเป็นการคำนวณที่ง่ายที่สุดเพราะไม่จำเป็นต้องคำนวณแยกของข้อผิดพลาดเชิงลบและบวก คำว่าเพียร์สันเป็นค่าเบี่ยงเบนมาตรฐานของคำศัพท์ในเอกสารที่อ้างถึงข้างต้นในหน้า 75

ป้อนคำอธิบายรูปภาพที่นี่

ในฐานะที่เป็นกัน: โปรดทราบว่ายูทิลิตี้ของส่วนเบี่ยงเบนมาตรฐานจะขึ้นอยู่กับการบังคับใช้ของ "กฎข้อผิดพลาด" หรือที่เรียกว่า "เส้นโค้งปกติ" ซึ่งเกิดขึ้นจาก "สาเหตุที่ผิดพลาดมากมาย" (Airy 1875 pg 7) ไม่มีเหตุผลที่จะคาดหวังว่าการเบี่ยงเบนจากค่าเฉลี่ยกลุ่มของแต่ละคนควรเป็นไปตามกฎหมายนี้ ในหลายกรณีสำหรับระบบชีวภาพการกระจายปกติของบันทึกจะดีกว่าสมมติฐานปกติ ดู:

Limpert et al (2001) การแจกแจงแบบล็อกตามปกติทั่วทั้งวิทยาศาสตร์: กุญแจและเบาะแส

มีข้อสงสัยเพิ่มเติมอีกหรือไม่ว่าจะเหมาะสมในการรักษาความแปรปรวนของแต่ละบุคคลว่าเป็นเสียงรบกวนหรือไม่เนื่องจากกระบวนการสร้างข้อมูลทำหน้าที่ในระดับบุคคลและไม่ใช่กลุ่ม


3

ค่าเบี่ยงเบนมาตรฐานจริง ๆ แล้วให้น้ำหนักมากขึ้นกับผู้ที่อยู่ห่างไกลจากค่าเฉลี่ยเพราะมันเป็นสแควร์รูทของค่าเฉลี่ยของระยะทางกำลังสอง เหตุผลในการใช้สิ่งนี้ (แทนที่จะเป็นค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยที่คุณเสนอหรือค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐานซึ่งใช้ในสถิติที่มีประสิทธิภาพ) ส่วนหนึ่งเป็นเพราะข้อเท็จจริงที่ว่าแคลคูลัสมีเวลาที่ง่ายกว่าด้วยชื่อพหุนามมากกว่าค่าสัมบูรณ์ อย่างไรก็ตามบ่อยครั้งเราต้องการเน้นย้ำถึงคุณค่าที่สุด

สำหรับคำถามของคุณเกี่ยวกับความหมายที่เข้าใจง่าย - มันพัฒนาตลอดเวลา คุณถูกต้องว่ามากกว่าหนึ่งชุดของตัวเลขสามารถมีค่าเฉลี่ยและ sd เดียวกันได้ นี่เป็นเพราะค่าเฉลี่ยและ sd เป็นเพียงข้อมูลสองชิ้นและชุดข้อมูลอาจเป็น 5 ชิ้น (เป็น 1,3,5,7,9) หรือมากกว่านั้น

ไม่ว่าค่าเฉลี่ย 5 และ sd ของ 2.83 จะเป็น "กว้าง" หรือ "แคบ" ขึ้นอยู่กับเขตข้อมูลที่คุณกำลังทำงานอยู่

เมื่อคุณมีเพียง 5 หมายเลขคุณสามารถดูรายการทั้งหมดได้อย่างง่ายดาย เมื่อคุณมีตัวเลขจำนวนมากวิธีคิดที่ง่ายขึ้นเกี่ยวกับการแพร่กระจายรวมถึงสิ่งต่าง ๆ เช่นการสรุปตัวเลขห้าตัวหรือกราฟที่ดีขึ้นเช่นพล็อตความหนาแน่น


2

ค่าเบี่ยงเบนมาตรฐานวัดระยะทางของประชากรของคุณจากค่าเฉลี่ยเป็นตัวแปรสุ่ม

ให้เราสมมติว่าตัวเลขทั้งห้าของคุณมีแนวโน้มที่จะเกิดขึ้นเท่ากันดังนั้นแต่ละอันมีความเป็นไปได้ 0.20 สิ่งนี้แสดงโดยตัวแปรสุ่มกำหนดโดยX:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

เหตุผลที่เราย้ายไปที่ฟังก์ชั่นและทฤษฎีการวัดก็เพราะเราจำเป็นต้องมีวิธีที่เป็นระบบในการอภิปรายว่าช่องว่างความน่าจะเป็นสองแบบนั้นเหมือนกันกับเหตุการณ์ที่มีโอกาสเกิดขึ้นเป็นศูนย์ ตอนนี้เราได้ย้ายไปยังฟังก์ชั่นที่เราต้องการความรู้สึกของระยะทาง

มีระยะทางมากมายสำหรับการทำงานโดยเฉพาะบรรทัดฐาน สำหรับและเหนี่ยวนำให้เกิดการทำงานระยะทางZ

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

ถ้าเราใช้ norm เราจะได้ค่าเบี่ยงเบนค่าสัมบูรณ์ไร้ค่าที่คุณพูดถึง: ถ้าเราใช้ norm เราจะได้ค่าเบี่ยงเบนมาตรฐานตามปกติ p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

นี่หมายถึงฟังก์ชั่นอย่างต่อเนื่อง55_t5

การทำความเข้าใจความหมายของค่าเบี่ยงเบนมาตรฐานคือการเข้าใจความหมายของฟังก์ชันระยะทางและเข้าใจว่าทำไมมันถึงเป็นเหตุผลในหลาย ๆ ด้านการวัดระยะทางที่ดีที่สุดระหว่างฟังก์ชั่นd2


คำอธิบายนี้รวมถึงสิ่งปลูกสร้างบางอย่างที่ดูเหมือนจะไม่“ หยั่งรู้” ตัวการหลักคือลักษณะที่ไม่ได้รับการรับรองของฟังก์ชันที่กำหนดไว้ในช่วงเวลาซึ่งไม่มีส่วนเกี่ยวข้องกับการตั้งค่า (มันเป็นธรรมชาติที่จะกำหนดเป็นโดยที่พีชคณิตเป็นชุดกำลังของ .) นอกจากนี้การตีความนิพจน์เช่น " " นั้นค่อนข้างมีปัญหาเพราะ " " หมายถึงตัวเลข - ค่าเฉลี่ยของประชากร - ไม่ใช่ตัวแปรสุ่ม ในท้ายที่สุดหลังจากนำเครื่องจักรนี้มาใช้ทั้งหมดคำถามจะได้รับการปรับปรุงใหม่ แต่ไม่ได้รับคำตอบจริง [0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15
whuber

ใช่ตัวแปรสุ่มที่คุณระบุไว้เป็นมาตรฐานสำหรับผู้ที่พอใจกับทฤษฎีการวัด ฉันหวังว่าจะแคบลงเพื่อทำความเข้าใจเกี่ยวกับฟังก์ชั่นและการรวมกลุ่มสำหรับผู้ที่มีพื้นฐานแคลคูลัสเท่านั้น ฉันจะเขียนค่าเฉลี่ยเป็นฟังก์ชัน
SomeEE

ยิ่งไปกว่านั้นมันเป็นคำถามที่ได้รับการปรับปรุงคุณแนะนำให้รวมความคิดเห็นเกี่ยวกับสาเหตุที่เป็นระยะทางที่ดีที่สุดระหว่างฟังก์ชันหรือไม่ d2
SomeEE

คำถามถามสัญชาตญาณในการทำความเข้าใจส่วนเบี่ยงเบนมาตรฐาน คุณได้อธิบายว่ามันเป็นบรรทัดฐานในบางพื้นที่ฟังก์ชั่นอย่างไร ถึงแม้ว่ามันจะให้การคำนวณทางคณิตศาสตร์อย่างเป็นทางการอีกครั้ง (และจะเป็นสัญชาตญาณที่เพียงพอสำหรับนักคณิตศาสตร์มิฉะนั้นไม่รู้ถึงความเบี่ยงเบนมาตรฐาน) แต่ดูเหมือนว่าจะหยุดสั้น ๆ ว่าโปสเตอร์ต้นฉบับร้องขออะไร สิ่งที่จะได้รับการต้อนรับมากที่สุดคือย่อหน้าติดตามที่อธิบาย "ความหมายของฟังก์ชั่นระยะทาง " และอธิบายอย่างละเอียดถ้าเพียงเล็กน้อยในความรู้สึกซึ่งเป็นระยะทาง "ที่ดีที่สุด" L2d2
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.