นักสถิติตกลงกันว่าจะใช้ (n-1) เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนของประชากรโดยไม่มีการจำลองอย่างไร


67

สูตรสำหรับการคำนวณความแปรปรวนมีในตัวส่วน:(n1)

s2=i=1N(xix¯)2n1

ฉันสงสัยอยู่เสมอว่าทำไม อย่างไรก็ตามการอ่านและดูวิดีโอดีๆสองสามเรื่องเกี่ยวกับ "ทำไม" ดูเหมือนว่าเป็นตัวประมาณค่าความแปรปรวนของประชากรที่ไม่เอนเอียง ในขณะที่ประเมินต่ำเกินไปและประเมินค่าความแปรปรวนของประชากรมากเกินไป(n1)n(n2)

สิ่งที่ฉันอยากรู้ก็คือว่าในยุคที่ไม่มีคอมพิวเตอร์ตัวเลือกนี้เกิดขึ้นได้อย่างไร มีหลักฐานทางคณิตศาสตร์จริง ๆ ที่พิสูจน์สิ่งนี้หรือว่าเป็นเชิงประจักษ์และนักสถิติได้ทำการคำนวณจำนวนมากด้วยมือเพื่อมากับ "คำอธิบายที่ดีที่สุด" ในเวลานั้น?

นักสถิติใช้สูตรนี้อย่างไรในต้นศตวรรษที่ 19 ด้วยความช่วยเหลือของคอมพิวเตอร์ ด้วยตนเองหรือมีมากเกินกว่าที่เห็นได้หรือไม่


13
ฉันถือว่าคุณตั้งใจจะพูดว่า " โดยไม่ต้องใช้คอมพิวเตอร์" คำตอบคือ - อาจแปลกใจ - โดยใช้พีชคณิต การสืบทอดมานั้นค่อนข้างตรงไปตรงมาและในหลาย ๆ ที่มันเป็นเรื่องธรรมดาสำหรับนักเรียนสถิติที่จะได้รับมันในแบบฝึกหัด / เรียนรู้ว่ามันเป็นระดับปริญญาตรี
Glen_b

ฉันคิดว่านี่เป็นคำอธิบายที่ดีทีเดียว: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


ฉันได้แก้ไขสูตรของคุณเพื่อใช้และเนื่องจากในส่วนนั้นมีไว้สำหรับความแปรปรวนตัวอย่าง (สัญลักษณ์ละติน) ไม่ใช่ความแปรปรวนประชากร (สัญลักษณ์กรีก) s2x¯n1
Alexis

คำตอบ:


40

การแก้ไขเรียกว่าการแก้ไขของ Besselและมีหลักฐานทางคณิตศาสตร์ โดยส่วนตัวแล้วฉันได้รับการสอนวิธีที่ง่าย: การใช้คือวิธีที่คุณแก้ไขอคติของ (ดูที่นี่ )n1E[1n1n(xix¯)2]

นอกจากนี้คุณยังสามารถอธิบายการแก้ไขตามแนวคิดขององศาอิสระไม่จำเป็นต้องทำการจำลองสถานการณ์


15
หลักฐานทางเลือก # 3 มีคำอธิบายที่ใช้งานง่ายสวยงามที่แม้แต่คนธรรมดาก็สามารถเข้าใจได้ แนวคิดพื้นฐานคือค่าเฉลี่ยตัวอย่างไม่เหมือนกับค่าเฉลี่ยประชากร การสังเกตของคุณจะใกล้เคียงกับค่าเฉลี่ยตัวอย่างมากกว่าค่าเฉลี่ยของประชากรและท้ายที่สุดการประเมินค่าเหล่านั้นต่ำกว่าคำที่มีคำศัพท์ นี่อาจเป็นที่ชัดเจนสำหรับคนส่วนใหญ่ แต่ฉันไม่เคยคิดเกี่ยวกับ "ปรีชา" ว่าทำไมความแปรปรวนตัวอย่างแบบเอนเอียงจึงมีอคติจนถึงปัจจุบัน ฉันเรียนรู้การพิสูจน์อย่างเป็นทางการเท่านั้น (xiμ)2(xix¯)2
WetlabStudent

2
นอกจากนี้ยังมีวิธีการเชิงเรขาคณิตที่จะต้องแก้ไขด้วย n-1 (อธิบายอย่างดีใน Saville และ Wood: วิธีการทางสถิติ: The Geometric Approach) กล่าวโดยเร็ว: ตัวอย่างของ n ถือได้ว่าเป็นพื้นที่ข้อมูล n-Dim จุดตัวอย่างเวกเตอร์เพิ่มลงในเวกเตอร์ที่สังเกตซึ่งสามารถแยกย่อยเป็นโมเดลเวกเตอร์ที่มี p-dimension ที่สอดคล้องกับพารามิเตอร์ p และเวกเตอร์ข้อผิดพลาดที่มีมิติ np การพังทลายของพีทาโกรัสที่สอดคล้องกันของเวกเตอร์ข้อผิดพลาดมีกำลังสอง np ซึ่งค่าเฉลี่ยเป็นการวัดความแปรปรวน
Giordano

ฉันจะให้ลิงก์ที่สวยงามซึ่งมีคำอธิบายสั้น ๆ : en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

คุณสามารถอธิบายว่าทำไมในหลักฐาน (เลือก 3) เราคิดว่าทั้งความแปรปรวนที่แท้จริงและความลำเอียงคำนวณโดยใช้ 's? ปัญหาความแปรปรวนที่แตกต่างกันเกิดขึ้นเมื่อเรามีประชากร (ที่มีความแปรปรวนจริง) และตัวอย่าง (ที่มีความแปรปรวนแบบเอนเอียง) แต่ถ้าเราคำนวณความแปรปรวนของข้อมูลเดียวกันนั่นคือทำไมพวกเขาถึงแตกต่างกัน มีเราคิดว่าเป็นความแปรปรวนจริงคำนวณโดยใช้เดียวกันว่า 's เป็นลำเอียงหนึ่ง 2 ฉันไม่เห็นด้วยกับหลักฐานนี้ โปรดช่วยฉันทำอะไรหายไป? n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

หลักฐานส่วนใหญ่ที่ฉันได้เห็นนั้นเรียบง่ายพอที่เกาส์ (แต่เขาทำ) อาจจะพบว่ามันค่อนข้างง่ายที่จะพิสูจน์

ฉันกำลังมองหาที่มาใน CV ที่ฉันสามารถเชื่อมโยงคุณไปยัง (มีจำนวนลิงค์ไปยังหลักฐานนอกสถานที่รวมถึงอย่างน้อยหนึ่งคำตอบที่นี่) แต่ฉันไม่พบที่นี่ใน CV ใน การค้นหาสองสามครั้งดังนั้นเพื่อความสมบูรณ์ฉันจะให้แบบง่ายๆ ด้วยความเรียบง่ายจึงง่ายที่จะเห็นว่าผู้คนจะเริ่มใช้สิ่งที่มักเรียกว่าการแก้ไขของเบสเซลได้อย่างไร

สิ่งนี้ต้องใช้เป็นความรู้ที่สันนิษฐานและสันนิษฐานว่าเป็นที่รู้กันว่าคุณสมบัติความแปรปรวนพื้นฐานสองสามข้อแรกE(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
คุณสมบัติใดที่ทำให้คำหายไป? 2x¯i=1nxi
Ciprian Tomoiagă

3
มันไม่ได้หายไป คุณสังเกตเห็นสัญญาณของคำสุดท้ายเปลี่ยนไปหรือไม่
Glen_b

1
(+1) ฉันเพิ่งได้ยินหลักฐานที่ดีว่าฉันพบว่าใช้งานง่ายยิ่งขึ้น ตัวอย่างความแปรปรวนพร้อมกับปัจจัยสามารถแสดงอีกครั้งเป็นค่าเฉลี่ยของความแตกต่างยกกำลังสองทั้งหมดระหว่างจุดคู่ทั้งหมด ตอนนี้สังเกตุว่าคู่ที่จุดเดียวกันเข้ามาสองครั้งนั้นเป็นศูนย์ทั้งหมดและอคตินี้จะแสดงออก ดูเหมือนว่ามีเหตุผลที่จะแก้ไขอคติโดยการแยกคู่ทั้งหมดเหล่านี้ออกจากผลรวมคู่และเฉลี่ยเพียงส่วนที่เหลือทั้งหมด สิ่งนี้ทำให้การแก้ไขของ Bessel 1/n
อะมีบากล่าวว่า Reinstate Monica

1
ไม่ไม่เป็นไรคิดออก ดังนั้นคุณเพียงแค่ใช้ข้อมูลประจำตัวเดียวกันกับที่คุณกล่าวถึงข้างต้นกับคำทั้งสองในบรรทัด 3V[x¯]=V[x]n
โทร

1
ตัวแปร iid ใด ๆ มีช่วงเวลาวินาทีที่เหมือนกัน เราไปจากการพูดคุยเกี่ยวกับพวกเขาทั้งหมดเพื่อพูดคุยเกี่ยวกับหนึ่งในพวกเขา คุณสามารถที่จะถ่ายได้อย่างง่ายดาย(และบางคนทำ) หรือหรือ ... แต่ฉันได้นำ thx1x2xni
Glen_b

37

ตาม Weisstein โลกคณิตศาสตร์มันก็พิสูจน์ให้เห็นเป็นครั้งแรกโดย Gauss ใน 1823 อ้างอิงเป็นปริมาณที่ 4 ของเกาส์ Werke ซึ่งสามารถอ่านได้ที่https://archive.org/details/werkecarlf04gausrich ดูเหมือนว่าหน้าเว็บที่เกี่ยวข้องจะเป็น 47-49 ดูเหมือนว่าเกาส์จะตรวจสอบคำถามและสร้างหลักฐานขึ้นมา ฉันไม่ได้อ่านละติน แต่มีบทสรุปภาษาเยอรมันในข้อความ หน้า 103-104 อธิบายสิ่งที่เขาทำ (แก้ไข: ฉันเพิ่มคำแปลคร่าวๆ):

Allein da man nicht berechtigt ist, ตาย sichersten Werthe füterensübensübensübütütsüben, kühleren, sübülbensüben, sübensüben, süb, süb, süb, süb, süb, süb, süb, süb, süb, süb, süb, süb, süben als sie wirklich besitzen [แต่เนื่องจากไม่มีสิทธิ์ในการรักษาค่าที่เป็นไปได้มากที่สุดราวกับว่ามันเป็นค่าจริงเราสามารถโน้มน้าวตัวเองได้อย่างง่ายดายว่าจะต้องพบว่าข้อผิดพลาดที่น่าจะเป็นไปได้มากที่สุดและค่าเฉลี่ยผิดพลาดน้อยเกินไป มีความแม่นยำมากกว่าที่เป็นจริง]

ดูเหมือนว่ามันจะเป็นที่รู้กันดีว่าความแปรปรวนตัวอย่างเป็นค่าประมาณของความแปรปรวนประชากรแบบเอนเอียง บทความกล่าวต่อไปว่าความแตกต่างระหว่างคนทั้งสองมักจะถูกมองข้ามเพราะมันไม่สำคัญหากขนาดตัวอย่างใหญ่พอ จากนั้นมันก็บอกว่า:

Der Verfasser hat daher dieen Gegenstand eine besondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen ส่งผลให้หมวก gefuehrt คน braucht nemlich den nach พวกเขา angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn ในตาย richtigen zu verwandeln, nur mit

πρπ

zu multiplicieren, woตาย Anzahl der beobachtungen (จำนวนการสังเกต) undตาย Anzahl der unbekannten groessen (จำนวนผู้ไม่ทราบ) [ผู้เขียนได้ทำการศึกษาพิเศษของวัตถุนี้ซึ่งนำไปสู่ผลลัพธ์ที่แปลกและง่ายมาก กล่าวคือเราต้องการเพียงแค่เพิ่มจำนวนความคลาดเคลื่อนเฉลี่ยที่พบโดยกระบวนการที่ผิดพลาดข้างต้นโดย (นิพจน์ที่กำหนด) เพื่อเปลี่ยนเป็นด้านขวาโดยที่คือจำนวนการสังเกตและคือจำนวนที่ไม่รู้จัก]πρπρ

ดังนั้นหากนี่เป็นครั้งแรกที่พบการแก้ไขแล้วดูเหมือนว่ามันถูกค้นพบโดยการคำนวณอย่างชาญฉลาดโดย Gauss แต่ผู้คนต่างตระหนักดีว่าจำเป็นต้องมีการแก้ไขบางอย่างดังนั้นอาจมีบางคนที่เคยพบมาก่อน . หรือผู้เขียนก่อนหน้านี้อาจไม่สนใจคำตอบที่แม่นยำเพราะพวกเขาทำงานกับชุดข้อมูลขนาดใหญ่พอสมควร

สรุป: ด้วยตนเอง แต่ผู้คนรู้แล้วว่าในตัวส่วนนั้นไม่ถูกต้องn


หากมีใครสามารถแปลภาษาเยอรมันได้นั่นก็คงจะดี ฉันคนหนึ่งไม่อ่านภาษาเยอรมัน
Faheem Mitha

2
ใช่ Google Translate ทำงานได้ไม่ดีนักเนื่องจากข้อผิดพลาดในการสะกดของฉัน! ฉันจะเพิ่มความพยายามในการแปล; มันจะเป็นวิธีที่ดีในการฝึกฝนภาษาเยอรมันของฉัน
Flounderer

14

สำหรับฉันปรีชาชิ้นเดียวก็คือ

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

นั่นคือ,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

การพิสูจน์สมการข้างต้นใช้พีชคณิตเล็กน้อย (พีชคณิตนี้คล้ายกับคำตอบของ @ Glen_b ด้านบน) แต่สมมติว่าเป็นเรื่องจริงเราสามารถจัดเรียงใหม่เพื่อรับ:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

สำหรับฉันปรีชาอีกชิ้นหนึ่งก็คือการใช้แทนแนะนำอคติ และอคตินี้เท่ากับว่าจะ{n}X¯μE[(X¯μ)2]=σ2n


12

คำตอบส่วนใหญ่อธิบายอย่างละเอียดแล้ว แต่นอกเหนือจากคำอธิบายนั้นมีภาพประกอบง่าย ๆ ที่สามารถช่วยได้:

สมมติว่าคุณได้รับและสามตัวเลขแรกคือ:n=4

8,4,6 , _

ตอนนี้ตัวเลขสี่สามารถเป็นอะไรก็ได้เนื่องจากไม่มีข้อ จำกัด ตอนนี้พิจารณาสถานการณ์เมื่อคุณจะได้รับที่และแล้วถ้าสามตัวแรกตัวเลข:แล้วจำนวนสี่จะต้องมี6n=4x¯=68,4,66

นี่เป็นการบอกว่าถ้าคุณรู้ค่าและ , ดังนั้นค่านั้นไม่มีอิสระ ดังนั้นจึงเป็นตัวประมาณค่าที่เป็นกลางn1x¯nthn1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.