คำอธิบายที่ใช้งานง่ายสำหรับการหารด้วย


136

ฉันถูกถามในชั้นเรียนวันนี้ว่าทำไมคุณหารผลรวมของความคลาดเคลื่อนกำลังสองด้วยแทนที่จะเป็นกับเมื่อคำนวณส่วนเบี่ยงเบนมาตรฐานnn1n

ฉันบอกว่าฉันจะไม่ตอบคำถามนี้ในชั้นเรียน (เนื่องจากฉันไม่ต้องการเข้าไปในตัวประมาณค่าที่เป็นกลาง) แต่ต่อมาฉันสงสัยว่า - มีคำอธิบายที่เข้าใจง่ายสำหรับเรื่องนี้หรือไม่!


29
ฉันต้องการที่จะอ้างถึง zinger นี้จากหนังสือสูตรตัวเลข : "... หากความแตกต่างระหว่างและมีความสำคัญกับคุณคุณก็อาจจะไม่ดีอยู่ดี - เช่นพยายามที่จะพิสูจน์สมมติฐานที่น่าสงสัย ด้วยข้อมูลส่วนเล็กน้อย " n - 1nn1
JM ไม่ใช่นักสถิติ

11
คำอธิบายที่ใช้งานง่ายและสง่างามนำเสนอที่นี่ (ใต้ข้อพิสูจน์) en.wikipedia.org/wiki/ ......แนวคิดพื้นฐานคือการสังเกตของคุณคือใกล้เคียงกับค่าเฉลี่ยตัวอย่างมากกว่าค่าเฉลี่ยของประชากร
WetlabStudent

12
@Tal นี่คือเหตุผลที่โรงเรียนดูด คุณถามพวกเขาว่า "ทำไมจึงเป็นเช่นนี้ ?" และพวกเขาตอบกลับว่า "จำได้"
Pacerier

1
หากคุณกำลังมองหาคำอธิบายที่เข้าใจง่ายคุณควรเห็นเหตุผลด้วยตัวคุณเองโดยการเก็บตัวอย่าง! ดูสิ่งนี้ตอบคำถามของคุณได้อย่างแม่นยำ youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (จากคำตอบยอดนิยม :) "... ส่วนเบี่ยงเบนมาตรฐานซึ่งคำนวณโดยใช้การเบี่ยงเบนจากค่าเฉลี่ยตัวอย่างประเมินค่าเบี่ยงเบนมาตรฐานที่ต้องการของประชากรต่ำกว่า" ... ดูเพิ่มเติมที่: en.wikipedia.org/wiki/ดังนั้นถ้าคุณไม่รู้สึกว่าการคำนวณบางอย่างค่อนข้างซับซ้อนให้ใช้ n-1 ถ้ามันมาจากตัวอย่าง
แอนดรู

คำตอบ:


99

ค่าเบี่ยงเบนมาตรฐานที่คำนวณโดยตัวหารของคือค่าเบี่ยงเบนมาตรฐานที่คำนวณจากกลุ่มตัวอย่างเป็นการประมาณค่าเบี่ยงเบนมาตรฐานของประชากรที่กลุ่มตัวอย่างถูกดึงขึ้นมา เนื่องจากค่าที่สังเกตได้ลดลงโดยเฉลี่ยใกล้กับค่าเฉลี่ยตัวอย่างมากกว่าค่าเฉลี่ยของประชากรค่าเบี่ยงเบนมาตรฐานที่คำนวณโดยใช้การเบี่ยงเบนจากค่าเฉลี่ยตัวอย่างต่ำกว่าค่าเบี่ยงเบนมาตรฐานที่ต้องการของประชากรต่ำกว่า ใช้แทนเป็นตัวแก้ไขที่ถูกต้องโดยการทำให้ผลลัพธ์ใหญ่ขึ้นเล็กน้อยn - 1 nn1n1n

โปรดทราบว่าการแก้ไขมีผลต่อสัดส่วนที่มากขึ้นเมื่อมีขนาดเล็กกว่าเมื่อมันมีขนาดใหญ่ซึ่งเป็นสิ่งที่เราต้องการเพราะเมื่อ n มีขนาดใหญ่กว่าค่าเฉลี่ยตัวอย่างน่าจะเป็นตัวประมาณที่ดีของค่าเฉลี่ยประชากรn

เมื่อตัวอย่างคือประชากรทั้งหมดเราใช้ค่าเบี่ยงเบนมาตรฐานโดยมีเป็นตัวหารเพราะค่าเฉลี่ยตัวอย่างคือค่าเฉลี่ยประชากรn

(ฉันสังเกตด้วยความพ่อแม่ว่าไม่มีสิ่งใดที่เริ่มต้นด้วย "ช่วงเวลาที่สองกลับมาอีกรอบหมายถึงค่าเฉลี่ยที่แน่นอน" เป็นไปตามคำขอของผู้ถามสำหรับคำอธิบายที่เข้าใจง่าย)


13
อย่าสับสน "สัญชาตญาณ" กับ "nontechnical"
whuber

32
@Michael สิ่งนี้ไม่ได้อธิบายว่าทำไมเราจึงใช้n−1แทนn−2(หรือแม้แต่n−3)
Pacerier

1
@Pacerier ดูที่คำตอบของ Whuber ด้านล่างเพื่อดูรายละเอียดในจุดนั้น ในสาระสำคัญการแก้ไขคือ n-1 มากกว่า n-2 ฯลฯ เพราะการแก้ไข n-1 ให้ผลลัพธ์ที่ใกล้เคียงกับสิ่งที่เราต้องการ การแก้ไขที่แม่นยำยิ่งขึ้นแสดงอยู่ที่นี่: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
สวัสดี @Michael เหตุใดค่าเบี่ยงเบนจากค่าเฉลี่ยตัวอย่างจึงมีขนาดเล็กกว่าค่าเฉลี่ยของประชากร
อัลเลน

1
"เนื่องจากค่าที่สังเกตได้ลดลงโดยเฉลี่ยใกล้กับค่าเฉลี่ยตัวอย่างมากกว่าค่าเฉลี่ยของประชากรค่าเบี่ยงเบนมาตรฐานซึ่งคำนวณโดยใช้การเบี่ยงเบนจากค่าเฉลี่ยตัวอย่างต่ำกว่าค่าเบี่ยงเบนมาตรฐานที่ต้องการของประชากร" ทำไมตัวอย่างถึงต่ำกว่าค่าเฉลี่ยเสมอ เกิดอะไรขึ้นถ้ามันประเมินค่าสูงเกินไป?
Bora M. Alper

55

สิ่งที่พบได้ทั่วไปคือนิยามของความแปรปรวน (ของการแจกแจง) คือช่วงเวลาที่สองที่เกิดขึ้นรอบ ๆค่าเฉลี่ยที่แน่นอนและเป็นที่รู้จักในขณะที่ตัวประมาณใช้ค่าเฉลี่ยที่ประมาณไว้ การสูญเสียระดับความเป็นอิสระนี้ (จากค่าเฉลี่ยคุณสามารถสร้างชุดข้อมูลใหม่ด้วยความรู้เพียงแค่ค่าข้อมูล ) จำเป็นต้องใช้แทนเพื่อ "ปรับ" ผลลัพธ์n - 1 nn1n1n

คำอธิบายดังกล่าวสอดคล้องกับความแปรปรวนโดยประมาณในการวิเคราะห์ความแปรปรวนและองค์ประกอบความแปรปรวน เป็นกรณีพิเศษจริงๆ

ฉันคิดว่าจำเป็นต้องทำการปรับเปลี่ยนบางอย่างที่ทำให้ความแปรปรวนสามารถทำให้ชัดเจนโดยสังเขปด้วยการโต้แย้งที่ถูกต้องซึ่งไม่ได้เป็นเพียงแค่การโพสต์การโบกมือด้วยมือ (ฉันจำได้ว่านักเรียนอาจโต้เถียงในกระดาษ 1908 ของเขาใน t-test.) ทำไมการปรับค่าความแปรปรวนควรเป็นปัจจัยที่แท้จริงของยากที่จะพิสูจน์โดยเฉพาะเมื่อคุณพิจารณา ว่า SD ที่ปรับแล้วไม่ใช่n/(n1)ตัวประมาณที่เป็นกลาง (มันเป็นเพียงรากที่สองของเป็นกลาง estimator ความแปรปรวน. ถูกเป็นกลางมักจะไม่รอดการเปลี่ยนแปลงที่ไม่เป็นเชิงเส้น.) ดังนั้นในความเป็นจริงการปรับตัวที่ถูกต้องไปยังการ์ด SD ที่จะลบอคติของมันคือไม่ได้ปัจจัยของเลย!n/(n1)

หนังสือแนะนำบางเล่มไม่สนใจที่จะแนะนำ sd ที่ปรับแล้ว: พวกเขาสอนหนึ่งสูตร (หารด้วย ) ครั้งแรกที่ฉันมีปฏิกิริยาทางลบต่อการที่เมื่อการสอนจากหนังสือเล่มนี้ แต่เริ่มที่จะชื่นชมภูมิปัญญา: การมุ่งเน้นไปที่แนวคิดและการใช้งานผู้เขียนตัดออกทั้งหมด nicities ทางคณิตศาสตร์ที่ไม่จำเป็น ปรากฎว่าไม่มีอะไรบาดเจ็บและไม่มีใครเข้าใจผิดn


1
ขอบคุณ Whuber ฉันต้องสอนนักเรียนด้วยการแก้ไข n-1 ดังนั้นการหารด้วย n อย่างเดียวจึงไม่ใช่ทางเลือก ดังที่เขียนไว้ก่อนหน้าฉันเพื่อพูดถึงการเชื่อมต่อกับช่วงเวลาที่สองไม่ใช่ตัวเลือก แม้ว่าจะพูดถึงวิธีการประมาณค่าเฉลี่ยแล้วทำให้เรามี "ข้อมูล" น้อยลงสำหรับ sd - นั่นเป็นสิ่งสำคัญ เกี่ยวกับอคติของ sd - ฉันจำได้ว่าพบมัน - ขอบคุณที่ขับรถกลับบ้าน ยอดเยี่ยม Tal
Tal Galili

3
@Tal ฉันเขียนด้วยภาษาของคุณไม่ใช่นักเรียนของคุณเพราะฉันมั่นใจว่าคุณสามารถแปลเป็นสิ่งที่คุณรู้ว่าจะเข้าถึงพวกเขาได้อย่างเต็มที่ ในคำอื่น ๆ ที่ผมตีความว่า "ง่าย" ในคำถามของคุณหมายถึงการใช้งานง่ายเพื่อคุณ
whuber

1
สวัสดี Whuber ขอบคุณสำหรับการโหวตด้วยความมั่นใจ :) ความอิสระในการประมาณค่าความคาดหวังเป็นสิ่งที่ฉันคิดว่าจะใช้ในชั้นเรียน ปัญหาคือแนวคิดของ "ดีกรีอิสระ" โดยตัวมันเองนั้นเป็นสิ่งที่ต้องการความรู้ / สัญชาตญาณ แต่การรวมเข้ากับคำตอบอื่น ๆ ที่ให้ไว้ในหัวข้อนี้จะเป็นประโยชน์ (สำหรับฉันและฉันหวังว่าคนอื่น ๆ ในอนาคต) ยอดเยี่ยม Tal
Tal Galili

สำหรับมีขนาดใหญ่โดยทั่วไปแล้วจะไม่แตกต่างกันมากระหว่างการหารด้วยnหรือn - 1ดังนั้นจึงเป็นที่ยอมรับได้ที่จะแนะนำสูตรที่ไม่ถูกแก้ไขหากตั้งใจจะใช้กับตัวอย่างขนาดใหญ่ไม่ใช่หรือ nnn1
PatrickT

1
@ แพทริคคุณอาจจะอ่านคำตอบของฉันมากเกินไปเพราะมันมีความชัดเจนเกี่ยวกับเหตุผล: มันเป็นน้ำท่วมทุ่งและไม่เกี่ยวข้องกับว่ามีขนาดใหญ่หรือไม่ n
whuber

50

ตามคำนิยามความแปรปรวนคำนวณโดยการหาผลรวมของความแตกต่างยกกำลังสองจากค่าเฉลี่ยและหารด้วยขนาด เรามีสูตรทั่วไป

โดยที่μคือค่าเฉลี่ยและNคือขนาดของประชากรσ2=iN(Xiμ)2NμN

ตามคำจำกัดความนี้จะต้องคำนวณความแปรปรวนของตัวอย่าง (เช่นตัวอย่าง ) ด้วยวิธีนี้t

โดยที่ ¯ Xคือค่าเฉลี่ยและnคือขนาดของตัวอย่างเล็ก ๆ นี้σt2=in(XiX¯)2nX¯n

อย่างไรก็ตามกลุ่มตัวอย่างแปรปรวนเราหมายถึงการประมาณการของประชากรแปรปรวนσ 2 เราจะประมาณσ 2โดยใช้ค่าจากตัวอย่างได้อย่างไรS2σ2σ2

ตามสูตรข้างต้นตัวแปรสุ่มเบี่ยงเบนไปจากค่าเฉลี่ยตัวอย่าง¯ Xกับความแปรปรวนσ 2ตัน ค่าเฉลี่ยตัวอย่าง¯ Xนั้นเบี่ยงเบนจากμด้วยความแปรปรวนσ 2XX¯σt2X¯μเนื่องจากค่าเฉลี่ยตัวอย่างได้รับค่าที่แตกต่างจากกลุ่มตัวอย่างไปยังกลุ่มตัวอย่างและเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยμและความแปรปรวนσ2σ2nμ . (หนึ่งสามารถพิสูจน์ได้อย่างง่ายดาย)σ2n

ดังนั้นโดยประมาณ, ควรเบี่ยงเบนจากμด้วยความแปรปรวนที่เกี่ยวข้องกับความแปรปรวนสองค่าดังนั้นรวมสองค่านี้เข้าด้วยกันและรับσ 2 = σ 2 t + σ 2Xμ . ด้วยการแก้ปัญหานี้เราจะได้σ2=σ 2 t ×nσ2=σt2+σ2n 1 การเปลี่ยนσ 2 tให้ตัวประมาณความแปรปรวนของประชากรของเรา:σ2=σt2×nn1σt2

1S2=in(XiX¯)2n1

เราสามารถพิสูจน์ได้ว่านั้นเป็นจริงE[S2]=σ2


ฉันหวังว่าสิ่งนี้จะไม่สำคัญเกินไป: มันเป็นความจริงหรือไม่ที่ตัวอย่างค่าเฉลี่ยมาบรรจบกับ ND ( , σμ ) เมื่อ n มีขนาดใหญ่ขึ้นโดยพลเหตุผลว่าทำไมค่าเฉลี่ยตัวอย่างเบี่ยงเบนจากค่าเฉลี่ยจริงด้วยความแปรปรวนσ2σn ? σ2n
RexYuan

6
นี่เป็นคำอธิบายที่ดีกว่าคำอธิบายอื่น ๆ เพราะมันแสดงให้เห็นถึงสมการและอนุพันธ์แทนการไป yagga yagga ด้วยคำศัพท์ทางสถิติ
Nav

1
@sevenkul เราสามารถดูภาพนี้ได้อย่างไร? เมื่อคุณพูดว่า X ควรเบี่ยงเบนจากกับความแปรปรวนสุทธินั้นฉันหลงทางในการมองเห็นว่าμ
Parthiban Rajendran

17

นี่คือสัญชาตญาณโดยรวม แต่คำตอบที่ง่ายที่สุดคือการแก้ไขเพื่อให้ค่าเบี่ยงเบนมาตรฐานของตัวอย่างองค์ประกอบเดียวไม่ได้กำหนดมากกว่า 0


11
ทำไมไม่ใช้หรือ1nn21เป็นการแก้ไข? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
ยิ่งเป็น "parsimonious" มากยิ่งขึ้น :-)1n1
whuber

2
@mbq เกี่ยวกับคำตอบของคุณ ~ "เป็นการแก้ไขเพื่อให้ค่าเบี่ยงเบนมาตรฐานของตัวอย่างองค์ประกอบเดียวไม่ได้กำหนดมากกว่า 0" นั่นคือเหตุผลจริงๆหรือเป็นคำตอบตลกหรือไม่ คุณรู้ว่าไม่ใช่พ่อ - เหมือนเราไม่สามารถบอกได้
Pacerier

4
อย่างเป็นทางการมันเป็นผลมาจากเหตุผลกว่า แต่ตามที่ฉันเขียนฉันพบว่ามันเป็นความตั้งใจที่ดีที่จะจดจำมัน

14

คุณสามารถได้รับความเข้าใจที่ลึกซึ้งของระยะผ่านเรขาคณิตเพียงอย่างเดียวไม่ได้เป็นเพียงเหตุผลที่มันไม่ได้nแต่ทำไมมันต้องใช้ว่ารูปแบบนี้ แต่แรกคุณอาจต้องการที่จะสร้างขึ้นสัญชาตญาณของคุณรับมือกับnเรขาคณิตมิติ จากตรงนั้นเป็นขั้นตอนเล็ก ๆ เพื่อทำความเข้าใจอย่างลึกซึ้งเกี่ยวกับองศาอิสระในโมเดลเชิงเส้น (เช่นโมเดล df และส่วนที่เหลือ df) ฉันคิดว่ามีข้อสงสัยเล็กน้อยที่ฟิชเชอร์คิดแบบนี้ นี่คือหนังสือที่สร้างมันขึ้นทีละน้อย:n1nn

Saville DJ, Wood GR. วิธีการทางสถิติวิธีการทางเรขาคณิต ฉบับที่ 3 นิวยอร์ก: Springer-Verlag; 2534 560 หน้า 9780387975177

(ใช่ 560 หน้าฉันพูดอย่างช้าๆ)


ขอบคุณ onestop - ฉันไม่คิดว่าจะมีคำตอบจากทิศทางนั้น มีวิธีใดที่จะสรุปปรีชาหรือไม่น่าจะเป็นไปได้ ไชโย, Tal
Tal Galili

ฉันทำไม่ได้ด้วยตัวเอง แต่ผู้ตรวจสอบหนังสือสรุปวิธีการในย่อหน้าใน Amer สถิติ ในปี 1993: jstor.org/stable/2684984 ฉันไม่แน่ใจว่ามันใช้งานได้จริงกับนักเรียนของคุณเว้นแต่ว่าคุณจะนำมาใช้สำหรับหลักสูตรทั้งหมด
onestop

คุณสามารถสรุปปรีชานิดหน่อยแทนที่จะเป็นเพียงหนังสืออ้างอิงได้หรือไม่?
oliversm

12

ตัวประมาณความแปรปรวนประชากรจะเอนเอียงเมื่อนำไปใช้กับกลุ่มตัวอย่างของประชากร เพื่อที่จะปรับสำหรับอคตินั้นจำเป็นต้องหารด้วย n-1 แทน n เราสามารถแสดงทางคณิตศาสตร์ได้ว่าตัวประมาณค่าของความแปรปรวนตัวอย่างนั้นไม่เอนเอียงเมื่อเราหารด้วย n-1 แทนที่จะเป็น n หลักฐานที่เป็นทางการมีให้ที่นี่:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

ตอนแรกมันเป็นความถูกต้องทางคณิตศาสตร์ที่นำไปสู่สูตรที่ฉันคิดว่า อย่างไรก็ตามหากต้องการเพิ่มปรีชาในสูตรคำแนะนำที่กล่าวถึงแล้วจะปรากฏขึ้นอย่างสมเหตุสมผล

ก่อนการสังเกตของกลุ่มตัวอย่างนั้นจะอยู่ใกล้กับค่าเฉลี่ยตัวอย่างมากกว่าค่าเฉลี่ยประชากร ตัวประมาณความแปรปรวนใช้ประโยชน์จากค่าเฉลี่ยตัวอย่างและผลที่ตามมาประเมินความแปรปรวนที่แท้จริงของประชากรต่ำไป การหารด้วย n-1 แทนการแก้ไข n สำหรับอคตินั้น

นอกจากนี้การหารด้วย n-1 ยังทำให้ความแปรปรวนของตัวอย่างองค์ประกอบหนึ่งที่ไม่ได้กำหนดมากกว่าศูนย์


12

ทำไมหารด้วยมากกว่าn ? เพราะมันเป็นธรรมเนียมและผลในการประมาณค่าความแปรปรวนที่เป็นกลาง อย่างไรก็ตามมันส่งผลให้มีการประเมินค่าเบี่ยงเบนมาตรฐานแบบเอนเอียง (ต่ำ) อย่างที่เห็นได้จากการใช้ความไม่เท่าเทียมของเซ่นกับฟังก์ชันเว้ารูตสแควร์n1n

ดังนั้นสิ่งที่ดีมากเกี่ยวกับการมีตัวประมาณที่เป็นกลาง? มันไม่จำเป็นต้องลดความคลาดเคลื่อนกำลังสองเฉลี่ย MLE สำหรับการกระจายปกติคือการหารด้วยมากกว่าn - 1 สอนนักเรียนของคุณให้คิดแทนที่จะสำรอกและจดจ่อกับความคิดโบราณที่มีมาตั้งแต่ศตวรรษที่แล้วnn1


8
(+1) ยิ่งฉันคิดเกี่ยวกับสถานการณ์นี้มากขึ้น (และฉันได้ให้ความคิดจริงบางอย่างกับการวิจัยในเอกสารก่อนหน้าเช่นการมีส่วนร่วมของนักเรียนไบโอเมตริกซ์ในปี 1908 เพื่อพยายามติดตามเวลาและสาเหตุที่ปรากฏตัว ) ยิ่งฉันคิดว่า "เพราะมันเป็นเรื่องธรรมดา" เป็นคำตอบที่ถูกต้องเท่านั้นที่เป็นไปได้ ฉันไม่มีความสุขที่จะเห็น downvotes และสามารถเดาได้ว่าพวกเขากำลังตอบโต้ประโยคสุดท้ายซึ่งสามารถมองเห็นได้อย่างง่ายดายว่าเป็นการโจมตีกลุ่ม OP แม้ว่าฉันจะสงสัยว่าเป็นความตั้งใจของคุณก็ตาม n1
whuber

1
ประโยคสุดท้ายของฉันคือคำแนะนำที่เป็นมิตรกับทุกคนที่เกี่ยวข้องเมื่อเทียบกับการโจมตี OP
Mark L. Stone

ในการใช้งานมากมันจะไม่สำคัญเมื่อใช้ในการทดสอบหรือช่วงความมั่นใจจะต้องปรับส่วนอื่น ๆ ของขั้นตอนและในที่สุดได้รับผลลัพธ์เดียวกัน!
kjetil b halvorsen

8

เป็นที่รู้จักกันดี (หรือพิสูจน์ได้ง่าย) ว่าสมการกำลังสองมี extremum ที่z = - βαz2+2βz+γ . นี้แสดงให้เห็นว่าสำหรับใดก็ตามnจำนวนจริงx1,x2,...,xnปริมาณ G()= n Σฉัน=1(xฉัน-)2=( n Σฉัน= 1 x 2 ฉัน )-2a( n i = 1 xi)+nz=βαnx1,x2,,xn มีค่าต่ำสุดเมื่อ = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
xa=1ni=1nxi=x¯

ตอนนี้สมมติว่าเป็นตัวอย่างที่มีขนาดnจากการกระจายกับที่ไม่รู้จักย่อมμและความแปรปรวนที่ไม่รู้จักσ 2 เราสามารถประมาณμเป็น1xinμσ2μซึ่งง่ายต่อการคำนวณ แต่ความพยายามในการประมาณσ2 เป็น11ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
เฉพาะในการแลกเปลี่ยนสแต็คนี้จะถือว่าเป็นคำตอบที่ใช้งานง่าย
โจเซฟการ์วิน

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

ที่จะไปจากการสุ่มการแปรปรวนของการแปรปรวนไปยังการกำหนดค่าความแปรปรวนตัวอย่างเป็นเรื่องของการประมาณความคาดหวังโดยค่าเฉลี่ยซึ่งสามารถพิสูจน์ได้โดยหลักการทางปรัชญาของความเป็นมาตรฐาน: ตัวอย่างเป็นตัวแทนทั่วไปของการแจกแจง (หมายเหตุสิ่งนี้เกี่ยวข้องกับ แต่ไม่เหมือนกับการประมาณช่วงเวลา)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


ไม่มีความชัดเจนว่าทำไม "ความแปรปรวนแบบอนันต์น่าจะเป็นผลที่เกิดจากเสียง" มากกว่าความแปรปรวนแบบศูนย์ ที่จริงแล้วคุณดูเหมือนจะใช้ "ความแปรปรวนตัวอย่าง" ในแง่ของตัวประมาณความแปรปรวนซึ่งทำให้เกิดความสับสนมากขึ้น
whuber

1
0<

4

คำแนะนำของwhuberคำตอบนี้ได้รับการคัดลอกมาจากคำถามที่คล้ายกันอีก

การแก้ไขของเบสเซลจะถูกนำมาใช้เพื่อแก้ไขอคติในการใช้ความแปรปรวนตัวอย่างเป็นตัวประมาณความแปรปรวนที่แท้จริง ความเอนเอียงในสถิติที่ไม่ได้แก้ไขเกิดขึ้นเนื่องจากค่าเฉลี่ยตัวอย่างอยู่ใกล้กับจุดกึ่งกลางของการสังเกตมากกว่าค่าเฉลี่ยที่แท้จริงและค่าเบี่ยงเบนกำลังสองรอบตัวอย่างหมายความว่าระบบประเมินค่าเบี่ยงเบนกำลังสองต่ำกว่าค่าเฉลี่ยจริง

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

การคาดหวังผลตอบแทน:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


ขอบคุณสำหรับการพิสูจน์!
upupming

0

โดยทั่วไปการใช้ "n" ในตัวส่วนให้ค่าน้อยกว่าความแปรปรวนประชากรซึ่งเป็นสิ่งที่เราต้องการประเมิน สิ่งนี้จะเกิดขึ้นโดยเฉพาะอย่างยิ่งหากนำตัวอย่างขนาดเล็ก ในภาษาของสถิติเราบอกว่าค่าความแปรปรวนตัวอย่างให้การประมาณค่า "ความเอนเอียง" ของความแปรปรวนของประชากรและจำเป็นต้องทำ "เป็นกลาง"

หากคุณกำลังมองหาคำอธิบายที่เข้าใจง่ายคุณควรให้นักเรียนของคุณเห็นเหตุผลด้วยตัวเองโดยการเก็บตัวอย่าง! ดูสิ่งนี้ตอบคำถามของคุณได้อย่างแม่นยำ

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

เพื่อตอบคำถามนี้เราต้องกลับไปที่คำจำกัดความของผู้ประเมินที่ไม่มีอคติ ตัวประมาณที่ไม่มีอคติคือสิ่งที่ความคาดหวังมีแนวโน้มที่จะเกิดขึ้นจริง ค่าเฉลี่ยตัวอย่างคือตัวประมาณที่ไม่เอนเอียง เพื่อดูว่าทำไม:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

ให้เราดูความคาดหวังของความแปรปรวนตัวอย่าง

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

การแจกแจง T แบบทั่วไปของนักเรียนมีสามพารามิเตอร์และใช้ประโยชน์จากสถิติทั้งสามของคุณ หากคุณตัดสินใจที่จะทิ้งข้อมูลบางอย่างคุณสามารถประมาณข้อมูลของคุณเพิ่มเติมโดยใช้การแจกแจงปกติสองพารามิเตอร์ตามที่อธิบายไว้ในคำถามของคุณ

จากมุมมองแบบเบย์คุณสามารถจินตนาการว่าความไม่แน่นอนในรูปแบบไฮเปอร์พารามิเตอร์ของแบบจำลอง (การแจกแจงค่าเฉลี่ยและความแปรปรวน) เป็นสาเหตุให้ความแปรปรวนของการทำนายหลังสูงกว่าความแปรปรวนของประชากร


-4

ความดีของฉันมันเริ่มซับซ้อน! ฉันคิดว่าคำตอบง่ายๆคือ ... หากคุณมีจุดข้อมูลทั้งหมดที่คุณสามารถใช้ "n" แต่ถ้าคุณมี "ตัวอย่าง" จากนั้นสมมติว่าเป็นตัวอย่างแบบสุ่มคุณจะได้รับคะแนนตัวอย่างเพิ่มเติมจากภายในส่วนเบี่ยงเบนมาตรฐาน กว่าจากภายนอก (ความหมายของค่าเบี่ยงเบนมาตรฐาน) คุณมีข้อมูลไม่เพียงพอนอกเพื่อให้แน่ใจว่าคุณได้รับจุดข้อมูลทั้งหมดที่คุณต้องการแบบสุ่ม n-1 ช่วยขยายสู่ส่วนเบี่ยงเบนมาตรฐาน "ของจริง"


3
n1n2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.