การแก้ไขอคติในความแปรปรวนแบบถ่วงน้ำหนัก


22

สำหรับความแปรปรวนแบบไม่มีน้ำหนัก มีค่าความแปรปรวนตัวอย่างที่มีอคติถูกแก้ไขเมื่อค่าเฉลี่ยถูกประเมินจากข้อมูลเดียวกัน:

Var(X):=1ni(xiμ)2
Var(X):=1n1i(xiE[X])2

ฉันกำลังดูค่าเฉลี่ยและความแปรปรวนแบบถ่วงน้ำหนักและสงสัยว่าการแก้ไขความลำเอียงที่เหมาะสมสำหรับความแปรปรวนแบบถ่วงน้ำหนักคืออะไร การใช้:

ค่าเฉลี่ย(X)=1ΣผมωผมΣผมωผมxผม

"ไร้เดียงสา" ความแปรปรวนที่ไม่ได้แก้ไขที่ฉันใช้อยู่คือ:

Var(X):=1iωiiωi(ximean(X))2

ดังนั้นฉันสงสัยว่าวิธีที่ถูกต้องในการแก้ไขอคติคืออะไร

A)

Var(X):=1iωi1iωi(ximean(X))2

หรือ B)

Var(X):=nn11iωiiωi(ximean(X))2

หรือ C)

Var(X):=iωi(iωi)2iωi2iωi(ximean(X))2

A) ไม่สมเหตุสมผลกับฉันเมื่อตุ้มน้ำหนักมีขนาดเล็ก ค่าการทำให้เป็นมาตรฐานอาจเป็น 0 หรือลบได้ แต่วิธีการเกี่ยวกับ B) ( nคือจำนวนการสังเกต) - นี่เป็นวิธีที่ถูกต้องหรือไม่? คุณมีข้อมูลอ้างอิงที่แสดงสิ่งนี้หรือไม่? ฉันเชื่อ "การอัปเดตค่าเฉลี่ยและการประมาณความแปรปรวน: วิธีการที่ได้รับการปรับปรุง", DHD West, 1979 ใช้สิ่งนี้ ประการที่สาม C) คือการตีความคำตอบสำหรับคำถามนี้ของฉัน: /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-mean

สำหรับ C) ฉันได้ตระหนักถึงเพียงว่าส่วนที่มีลักษณะมากเช่นVar(Ω)Omega) มีการเชื่อมต่อทั่วไปที่นี่ไหม ฉันคิดว่ามันไม่สอดคล้องทั้งหมด และเห็นได้ชัดว่ามีการเชื่อมต่อที่เราพยายามคำนวณความแปรปรวน ...

ทั้งสามของพวกเขาดูเหมือนจะ "รอด" การตรวจสอบสุขภาพจิตของการตั้งค่าทั้งหมด 1 ดังนั้นฉันควรใช้อันไหนภายใต้สถานที่ใด? '' Update: '' whuber แนะนำให้ทำการตรวจสอบสติด้วยและที่เหลือทั้งหมดจิ๋ว ดูเหมือนว่าจะแยกออกจาก A และ Bω 1 = ω 2 = .5 ω i = ϵωi=1ω1=ω2=.5ωi=ϵ


เมื่อคุณพิจารณากรณีที่น้ำหนักที่ใหญ่ที่สุดสองค่าเท่ากันและส่วนที่เหลือทั้งหมดมีขนาดเล็กหายไปทั้ง (A) และ (B) ลดลงจากการแข่งขัน (เพราะพวกเขาไม่เห็นด้วยกับผลลัพธ์ที่ทราบสำหรับ ) (C) ดูเหมือนจะเป็นการประมาณ ฉันสงสัยว่าปัจจัยที่ถูกต้องเป็นฟังก์ชันที่ซับซ้อนมากขึ้นของน้ำหนัก n=2
whuber

@whuber ThePawn ด้านล่างชี้ให้เห็นว่าเป็น C. คุณมีข้อกังวลรายละเอียดเพิ่มเติมหรือไม่
Anony-Mousse

1
โซลูชัน (A) ใช้งานได้ฉันนำมาใช้ในอดีตและสามารถยืนยันจากการทดสอบเชิงประจักษ์ว่าให้ผลลัพธ์ที่ถูกต้อง อย่างไรก็ตามคุณจะต้องใช้ค่าจำนวนเต็มสำหรับน้ำหนักและ> 0
gaborous

ขอบคุณ! สิ่งนี้ช่วยฉันได้มากในการติดตามที่ถูกต้องเมื่อตุ้มน้ำหนักสำหรับค่าเฉลี่ยเคลื่อนที่ชี้แจง! ปรากฎว่าวิธีที่ไร้เดียงสาในการคำนวณค่าความแปรปรวนจริงแล้วประเมินค่าเกินจริงโดยปัจจัยคงที่ที่ 2 นอกเหนือจากการแก้ไขขนาดเล็ก (1-1 / n) ที่แสดงการคำนวณค่าเฉลี่ยเคลื่อนที่แบบเรียบง่ายแบบแอนะล็อก นั่นเป็นกรณีพิเศษที่บ้าโดยเฉพาะ!
saolof

คำตอบ:


10

ฉันผ่านคณิตศาสตร์และลงเอยด้วยตัวแปร C:

Var(X)=(iωi)2(iωi)2iωi2V¯
โดยที่คือการประมาณค่าความแปรปรวนที่ไม่ถูกต้อง สูตรเห็นด้วยกับตัวพิมพ์ที่ไม่ถ่วงเมื่อเหมือนกันทั้งหมด ฉันให้รายละเอียดหลักฐานด้านล่าง:V¯ωผม

การตั้งค่าเรามีλผม=ωผมΣผมωผม

V¯=Σผมλผม(xผม-ΣJλJxJ)2

การขยายคำในให้:

(xผม-ΣJλJxJ)2=xผม2+ΣJ,kλJλkxJxk-2ΣJλJxผมxJ

หากเราคาดหวังเรามีคำว่าอยู่ในแต่ละเทอมมันยกเลิกไปแล้วและเรา จะได้รับ:E[xผมxJ]=VaR(X)1ผม=J+E[X]2E[X]

E[V¯]=VaR(X)Σผมλผม(1+ΣJλJ2-2λผม)
นั่นคือ ยังคงเสียบปลั๊กในการแสดงออกของเทียบกับเพื่อรับตัวแปร C
E[V¯]=VaR(X)(1-ΣJλJ2)
λผมωผม

นั่นคือตัวแปร C ด้านบนใช่ไหม
Anony-Mousse

Oups ใช่มันเป็นตัวแปร C
ThePawn

ฉันได้ตรวจสอบวิธีแก้ปัญหาเชิงประจักษ์แล้วและมันไม่ทำงาน ... สิ่งเดียวที่แก้ปัญหา (A) ที่ฉันได้นำไปใช้ในอดีตด้วยตัวเอง แต่มันใช้ได้กับน้ำหนักที่เป็นจำนวนเต็มและ> = 0
gaborous

2
สมการนี้ผิดไปจาก Wikipedia, Matlab, R และอื่น ๆ ที่ใช้สมการนี้ ตัวเศษที่นี่ยกกำลังสอง แต่ไม่ควรมันควรจะเหมือนกับ (C) ที่เสนอโดย OP ดูen.wikipedia.org/wiki/…
gaborous

1
@rajatkhanduja ฉันไม่ได้พูดถึงหลักฐาน แต่เป็นสมการสุดท้ายที่ได้มา (อันดับหนึ่งในคำตอบนี้) แต่ที่จริงแล้วมันถูกต้องตัวเศษนั้นก็แค่กำลังสองเพราะเราคูณด้วย V ดังนั้นตัวเศษนั้นก็ไม่ได้ถูกยืนยัน อย่างไรก็ตามตัวประมาณนี้ยังคงลำเอียงตามที่ฉันอธิบายในคำตอบของฉันด้านล่างเนื่องจากมันขึ้นอยู่กับ "ความน่าเชื่อถือ" - น้ำหนักประเภท
gaborous

7

ทั้ง A และ C นั้นถูกต้อง แต่สิ่งใดที่คุณจะใช้ขึ้นอยู่กับน้ำหนักที่คุณใช้:

  • ความต้องการให้คุณใช้"ทำซ้ำ" น้ำหนักชนิด (จำนวนเต็มนับจำนวนของการเกิดขึ้นสำหรับแต่ละสังเกต) และเป็นที่เป็นกลาง
  • C ความต้องการของคุณที่จะใช้"ความน่าเชื่อถือ" น้ำหนักชนิด (น้ำหนักปกติอย่างใดอย่างหนึ่งหรือทั้งแปรปรวนสำหรับแต่ละสังเกต) และลำเอียง มันไม่สามารถเป็นกลางได้

เหตุผลที่ C ต้องลำเอียงเพราะถ้าคุณไม่ใช้น้ำหนักแบบ "ซ้ำ" คุณจะสูญเสียความสามารถในการนับจำนวนการสังเกตทั้งหมด (ขนาดตัวอย่าง) และทำให้คุณไม่สามารถใช้ปัจจัยการแก้ไขได้

สำหรับข้อมูลเพิ่มเติมให้ตรวจสอบบทความ Wikipedia ที่ได้รับการปรับปรุงล่าสุด: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.