เหตุใดความแปรปรวนของตัวอย่างจึงเปลี่ยนไปถ้าการสังเกตซ้ำกัน


25

ความแปรปรวนกล่าวกันว่าเป็นมาตรวัดการแพร่กระจาย ดังนั้นฉันจึงคิดว่าความแปรปรวนของ3,5เท่ากับความแปรปรวน3,3,5,5เนื่องจากจำนวนนั้นกระจายเท่ากัน แต่นี่ไม่ใช่กรณีที่ความแปรปรวนของ3,5คือ2ในขณะที่ความแปรปรวนของการเป็น3,3,5,51 1/3

ปริศนานี้ทำให้ฉันได้รับคำอธิบายว่าความแปรปรวนควรจะเป็นตัวชี้วัดการแพร่กระจาย

ดังนั้นในบริบทนั้นการวัดการแพร่กระจายหมายถึงอะไร

คำตอบ:


32

หากคุณกำหนดความแปรปรวนเป็น - คล้ายกับความแปรปรวนของประชากร แต่ด้วยค่าเฉลี่ยตัวอย่างสำหรับดังนั้นทั้งสองตัวอย่างของคุณจะมีความแปรปรวนเดียวกันsn2=MSE=1nΣผม=1n(xผม-x¯)2μ

ดังนั้นความแตกต่างเป็นเพราะการแก้ไขของเบสเซลในสูตรปกติสำหรับความแปรปรวนตัวอย่าง (ซึ่งปรับสำหรับความจริงที่ว่าค่าเฉลี่ยตัวอย่างนั้นใกล้เคียงกับข้อมูลมากกว่าค่าเฉลี่ยประชากรคือเพื่อทำให้มันไม่เอนเอียง (รับค่าที่เหมาะสม "โดยเฉลี่ย")sn-12=nn-1MSE=nn-11nΣผม=1n(xผม-x¯)2=1n-1Σผม=1n(xผม-x¯)2

ผลค่อยๆหายไปกับการเพิ่มขนาดของกลุ่มตัวอย่างเป็นไป 1 n \ to \ inftyn-1nn

ไม่มีเหตุผลใดที่คุณจะต้องใช้ตัวประมาณค่าที่ไม่เอนเอียงสำหรับความแปรปรวนโดยวิธี - sn2เป็นตัวประมาณที่ถูกต้องสมบูรณ์แบบและในบางกรณีอาจมีข้อได้เปรียบมากกว่าแบบทั่วไป (ความเป็นกลางไม่จำเป็นว่าใหญ่ จัดการ).

ความแปรปรวนเองไม่ได้เป็นการวัดการแพร่กระจายโดยตรง หากฉันเพิ่มค่าทั้งหมดเป็นสองเท่าในชุดข้อมูลของฉันฉันจะยืนยันว่าพวกเขาเป็นสองเท่าของ "สเปรด" แต่ความแปรปรวนเพิ่มขึ้นจากปัจจัย 4 ดังนั้นโดยมากจะกล่าวได้ว่าค่าเบี่ยงเบนมาตรฐานแทนที่จะเป็นความแปรปรวนเป็นมาตรวัดการแพร่กระจาย

แน่นอนปัญหาเดียวกันเกิดขึ้นกับค่าเบี่ยงเบนมาตรฐาน (รุ่นsn-1 ) เช่นเดียวกับความแปรปรวน - เมื่อคุณเพิ่มคะแนนเป็นสองเท่าของการเปลี่ยนแปลงค่าเบี่ยงเบนมาตรฐานด้วยเหตุผลเดียวกับที่เกิดขึ้นกับความแปรปรวน

ในตัวอย่างขนาดเล็กการแก้ไข Bessel ทำให้ส่วนเบี่ยงเบนมาตรฐานค่อนข้างง่ายกว่าการวัดการแพร่กระจายเนื่องจากผลกระทบนั้น (การทำซ้ำตัวอย่างจะเปลี่ยนค่า) แต่การวัดจำนวนมากของสเปรดจะคงไว้ซึ่งค่าเดิมเมื่อทำซ้ำตัวอย่าง; ฉันจะพูดถึงไม่กี่ -

  • sn (แน่นอน)

  • ส่วนเบี่ยงเบนเฉลี่ย (สัมบูรณ์) จากค่าเฉลี่ย

  • ค่ามัธยฐานเบี่ยงเบนจากค่ามัธยฐาน

  • ช่วง interquartile (อย่างน้อยสำหรับคำจำกัดความของตัวอย่างควอไทล์)


3
"ไม่มีเหตุผลใดที่คุณจะต้องใช้เครื่องมือประมาณค่าแบบไม่เอนเอียง" - แน่นอนว่าคุณไม่จำเป็นต้องประมาณค่าอะไรเลย ความแปรปรวนของ{3, 5}ตัวเองคือ 1 ต่อสูตรแรก ในขณะที่คุณชี้ให้เห็นผู้ถามได้พยายามที่จะประเมินความแปรปรวนของประชากรที่สันนิษฐานว่าเป็นตัวอย่าง แต่ใครจะรู้ว่ามันเป็นหรือไม่
Steve Jessop

1

การจัดเรียงบางส่วนของความจำ, X ดังนั้นค่าที่คาดหวังของความแปรปรวนของตัวอย่างต่ำเกินไปโดยความแตกต่างคือความแปรปรวนของค่าเฉลี่ยตัวอย่างVX=EVX+VEX

สูตรความแปรปรวนตัวอย่างตามปกติชดเชยสิ่งนั้นและค่าความแปรปรวนของค่าเฉลี่ยตัวอย่างจะแปรผกผันกับขนาดตัวอย่าง

ในฐานะที่เป็นตัวอย่างสุดขีดการรับตัวอย่างเพียงครั้งเดียวจะแสดงความแปรปรวนตัวอย่างเป็น 0 เสมอโดยไม่แสดงความแปรปรวนเป็น 0 สำหรับการแจกแจงต้นแบบ

ตอนนี้สำหรับตัวอย่างที่มีน้ำหนักเท่ากัน 2 และ 4 ตัวปัจจัยแก้ไขคือและตามลำดับ ดังนั้นคาดว่าความแปรปรวนของการคำนวณที่แตกต่างกันโดยมีปัจจัยของ2/3ความแปรปรวนของตัวอย่างนั้นคือในทั้งสองกรณี แต่กรณีแรกแสดงกรณีที่อ่อนแอสำหรับคือค่าเฉลี่ยของการแจกแจงฐานและค่าอื่น ๆ ทุกค่าจะหมายถึงความแปรปรวนที่ใหญ่กว่า2/14/32/314


2
ด้วยการทำให้ค่าประมาณที่มีสถิติสับสนคำตอบนี้ทำให้เกิดความสับสนแทนที่จะถามคำถามที่ชัดเจน โปรดอ่านคำตอบดั้งเดิมของ Glen_b ในชุดข้อความนี้ การโต้แย้งในสองย่อหน้าแรกนั้นลึกลับเพราะมันดูเหมือนจะไม่เกี่ยวข้องกับคำถาม
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.