ทำไมค่าเบี่ยงเบนมาตรฐานถูกกำหนดเป็น sqrt ของความแปรปรวนและไม่เป็น sqrt ของผลรวมของกำลังสองเหนือ N


16

วันนี้ฉันสอนชั้นสถิติเบื้องต้นและมีนักเรียนคนหนึ่งถามคำถามซึ่งฉันได้เรียบเรียงใหม่ที่นี่: "ทำไมค่าเบี่ยงเบนมาตรฐานที่กำหนดเป็น sqrt ของความแปรปรวนและไม่ใช่ผลรวมของสี่เหลี่ยมจัตุรัสเหนือ N"

เรากำหนดความแปรปรวนประชากร: σ2=1N(xiμ)2

และค่าเบี่ยงเบนมาตรฐาน: σ=σ2=1N(xiμ)2 2

ในความหมายที่เราจะได้มอบให้σคือว่ามันจะช่วยให้ค่าเบี่ยงเบนเฉลี่ยของหน่วยในประชากรจากค่าเฉลี่ยของประชากรXX

อย่างไรก็ตามในคำจำกัดความของ sd เราหาร sqrt ของผลรวมของกำลังสองผ่านN . คำถามที่นักเรียนยกคือทำไมเราไม่หาร sqrt ของ sume of squares โดยNแทน ดังนั้นเรามาถึงสูตรการแข่งขัน:

σnew=1N(xiμ)2.
นักเรียนให้เหตุผลว่าสูตรนี้ดูเหมือนว่าส่วนเบี่ยงเบน "เฉลี่ย" มากกว่าค่าเฉลี่ยเมื่อหารด้วยNในขณะที่σσ

ฉันคิดว่าคำถามนี้ไม่ได้โง่ ฉันต้องการที่จะให้คำตอบกับนักเรียนที่ไปไกลกว่าที่บอกว่า sd หมายถึง sqrt ของความแปรปรวนซึ่งเป็นค่าเบี่ยงเบนมาตรฐานกำลังสอง ทำไมนักเรียนถึงใช้สูตรที่ถูกต้องและไม่ทำตามความคิดของเธอ?

คำถามนี้เกี่ยวข้องกับด้ายเก่าและคำตอบที่ให้ไว้ที่นี่ คำตอบมีสามทิศทาง:

  1. σคือค่าเบี่ยงเบน root-Mean-squared (RMS) ไม่ใช่ส่วนเบี่ยงเบน "ทั่วไป" จากค่าเฉลี่ย (เช่นσnew ) ดังนั้นจึงถูกกำหนดแตกต่างกัน
  2. มันมีคุณสมบัติทางคณิตศาสตร์ที่ดี
  3. นอกจากนี้ sqrt จะนำ "หน่วย" กลับมาสู่ระดับเดิม แต่นี้ยังจะเป็นกรณีสำหรับσnewซึ่งแบ่งโดยNแทน

ทั้งสองจุดที่ 1 และ 2 มีข้อโต้แย้งในความโปรดปรานของ SD เป็น RMS แต่ผมไม่เห็นโต้แย้งกับการใช้งานของσnew W อะไรจะเป็นข้อโต้แย้งที่ดีในการโน้มน้าวใจนักเรียนระดับเริ่มต้นเกี่ยวกับการใช้ระยะทาง RMS เฉลี่ยσจากค่าเฉลี่ย?


2
ฉันคิดว่าคำถามมาก "ทำไมค่าเบี่ยงเบนมาตรฐานที่กำหนดเป็น ... " ยากที่จะตอบ คำจำกัดความเป็นเพียงอนุสัญญาการติดฉลากโดยพลการ พวกเขาไม่ได้มีเพื่อให้สอดคล้องกับเหตุผลที่ 's
ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"อาจเป็นได้ว่าสิ่งใดที่อยู่ในวงเล็บเหลี่ยมหายไปในคำถาม
ttnphns

1
แต่ sd ให้บริการชุดของวัตถุประสงค์ จะต้องมีแรงจูงใจที่ดีกว่าที่กำหนดไว้เช่นนั้น นั่นจะเป็นประโยชน์โดยเฉพาะอย่างยิ่งในการสอนนักศึกษาปริญญาตรี ฉันสามารถจินตนาการถึงแรงบันดาลใจในแง่ของความไม่เท่าเทียมกันของ Chebyshev (จำนวนนาทีของสัดส่วนผู้ป่วยในขอบเขตของ +/- ซึ่งเป็นปัจจัยคงที่ของ sd)
tomka

2
ไม่สามารถตอบได้เนื่องจาก Q ของคุณถูกระงับ แต่ลองทำสิ่งนี้: ลองจินตนาการว่าคุณสังเกตเห็นค่า 1 และ 3 ในสัดส่วนที่เท่ากันโดยประมาณ (โยนเหรียญH=3 , T=1 ) "ระยะทางปกติ" ของการสังเกตจากค่าเฉลี่ยควรเป็นเช่น 1 กับของคุณสูตรพิจารณาสิ่งที่เกิดขึ้นกับตัวชี้วัดของระยะนี้โดยทั่วไปสำหรับnมากมีขนาดใหญ่มาก ในแต่ละกรณี| xi- ˉ x | จะอยู่ใกล้ 1 ดังนั้นผลรวมของพวกเขาของสี่เหลี่ยมจะอยู่ใกล้n ตัวเศษจะใกล้กับSSE/nn|xix¯|nดังนั้นสูตรของคุณจะเล็กลงและเล็กลงเมื่อเพิ่มขึ้นnแม้ว่าระยะทางปกติจากค่าเฉลี่ยจะไม่เปลี่ยนแปลง nn
Glen_b -Reinstate Monica

1
@whuber I made another update and hope the point I make is clearer now. Note I am asking for teaching advice here besides asking a question on fundations of statistics. I am not suggesting an alternative formula, but gave an example from a classroom situation of a good question by a student to which I did not have an immediate answer. If you agree, I kindly request to release the question from hold now .
tomka

คำตอบ:


12

There are at least three basic problems which can readily be explained to beginners:

  1. The "new" SD is not even defined for infinite populations. (One could declare it always to equal zero in such cases, but that would not make it any more useful.)

  2. The new SD does not behave the way an average should do under random sampling.

  3. Although the new SD can be used with all mathematical rigor to assess deviations from a mean (in samples and finite populations), its interpretation is unnecessarily complicated.

1. The applicability of the new SD is limited

สามารถนำจุด (1) กลับบ้านแม้กับผู้ที่ไม่เชี่ยวชาญในการรวมโดยชี้ให้เห็นว่าเนื่องจากความแปรปรวนอย่างชัดเจนเป็นค่าเฉลี่ยเลขคณิต (ของการเบี่ยงเบนกำลังสอง) มันมีส่วนขยายที่เป็นประโยชน์ต่อแบบจำลอง สัญชาตญาณของการดำรงอยู่ของค่าเฉลี่ยเลขคณิตยังคงถือ ดังนั้นสแควร์รูท - SD ปกติ - ถูกนิยามไว้อย่างดีในกรณีเช่นนี้เช่นกันและมีประโยชน์ในบทบาทของความแปรปรวน (แบบไม่เชิงเส้น) อย่างไรก็ตามการแบ่ง SD ใหม่ที่โดยเฉลี่ยมีขนาดใหญ่โดยพลการเรนเดอร์ปัญหาทั่วไปของมันเหนือกว่าประชากร จำกัด และตัวอย่าง จำกัด : สิ่งที่ควร1/Nต้องดำเนินการเพื่อความเท่าเทียมกันในกรณีดังกล่าวหรือไม่1/N

2. SD ใหม่ไม่ได้เป็นค่าเฉลี่ย

สถิติที่ควรค่าแก่ชื่อ "ปานกลาง" ควรมีคุณสมบัติที่รวมเข้ากับค่าประชากรเมื่อขนาดของกลุ่มตัวอย่างสุ่มจากการเพิ่มขึ้นของประชากร ใด ๆ ที่ได้รับการแก้ไขหลาย SD จะมีคุณสมบัตินี้เพราะตัวคูณจะใช้ทั้งการคำนวณ SD ตัวอย่างและประชาชน SD (แม้ว่าจะไม่ขัดแย้งกับการโต้แย้งโดยตรงที่เสนอโดย Alecos Papadopoulos การสังเกตนี้แสดงให้เห็นว่าการโต้แย้งเป็นเพียงการสัมผัสกับปัญหาจริง) อย่างไรก็ตาม SD "ใหม่" ซึ่งมีค่าเท่ากับคูณหนึ่งตามปกติโดยรวมเป็น0ในทุกสถานการณ์เมื่อขนาดตัวอย่างNโตขึ้นมาก ดังนั้นแม้ว่าขนาดตัวอย่างคงที่ใด ๆNSD ใหม่ (ตีความอย่างเหมาะสม) คือการวัดความแปรปรวนที่เพียงพออย่างสมบูรณ์แบบโดยเฉลี่ย แต่ก็ไม่สามารถพิจารณาได้ว่าเป็นการวัดแบบสากลที่ใช้บังคับได้ด้วยการตีความเดียวกันสำหรับขนาดตัวอย่างทั้งหมดและไม่สามารถทำได้ ถูกต้องเรียกว่า "เฉลี่ย" ในแง่ที่เป็นประโยชน์ใด ๆ1/N0NN

3. SD ใหม่นั้นซับซ้อนในการตีความและใช้

พิจารณาตัวอย่าง (พูด) ขนาด 4 SD ใหม่ในกรณีเหล่านี้คือ1 / N=4ครั้ง SD ปกติ มันจึงสนุกกับการตีความเปรียบเช่นอนาล็อกของกฎ 68-95-99 (มีประมาณ 68% ของข้อมูลที่ควรอยู่ภายในสองSDS ใหม่ของค่าเฉลี่ย 95% ของพวกเขาภายในสี่SDS ใหม่ของค่าเฉลี่ยฯลฯ; และรุ่นของความไม่เท่าเทียมกันคลาสสิกเช่น Chebychev ของจะถือ (ไม่เกิน1/k2ของข้อมูลที่สามารถนอนมากกว่า2kSDS ใหม่ออกไปจากค่าเฉลี่ยของพวกเขา) และทฤษฎีขีด จำกัด กลางสามารถปรับย้อนหลัง analogously ในแง่ของ SD ใหม่ (หนึ่งหารด้วย1/N=1/21/k22kคูณ SD ใหม่เพื่อปรับมาตรฐานตัวแปร) ดังนั้นในความหมายที่เฉพาะเจาะจงและชัดเจนนี้ไม่มีข้อผิดพลาดกับข้อเสนอของนักเรียน อย่างไรก็ตามความยากลำบากก็คือว่าข้อความเหล่านี้มี - ค่อนข้างชัดเจน - ปัจจัยของN2 แม้ว่าจะไม่มีปัญหาทางคณิตศาสตร์โดยธรรมชาติกับสิ่งนี้ แต่มันก็ทำให้งบและการตีความกฎหมายพื้นฐานที่ซับซ้อนที่สุดมีความซับซ้อนN=2


มันเป็นจดหมายที่เกาส์และคนอื่น ๆ แต่เดิมแปรเสียนกระจายโดยใช้อย่างมีประสิทธิภาพ2σ2 times the SD to quantify the spread of a Normal random variable. This historical use demonstrates the propriety and effectiveness of using other fixed multiples of the SD in its stead.


Thank you - one question back (relating to your point 2): does 1N not converge to 0 as N grows large, whereas 1N obviously does?
tomka

2
We're comparing the SD of the sample to 1/N times the SD of the sample (the "new SD"). As N grows large, the SD of the sample approaches a (usually) nonzero constant equal to the population SD. Therefore 1/N times the sample SD converges to zero.
whuber

This is standard material--consult any rigorous textbook in mathematical statistics (which, to be fair, would not be accessible to most beginners). However, the results important for my answer follow from a weaker and intuitively obvious statement. Fix a number A>1 and let σ be the population SD. Consider the chance that the sample SD will lie between σ/A and Aσ. It suffices that this chance goes to zero as the sample size N increases. This alone shows that 1/N times the sample SD converges to 0 almost surely, demonstrating point (2) in the answer.
whuber

+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)
Nikos M.

@Nikos Thank you, but what is not scale invariant? Both SD/N and SD change when the data are rescaled.
whuber

5

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.


1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber

2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.