ความแปรปรวนแบบถ่วงน้ำหนักอีกครั้ง


17

ความแปรปรวนแบบถ่วงน้ำหนักที่ไม่เอนเอียงได้ถูกกล่าวถึงแล้วที่นี่และที่อื่น ๆแต่ก็ยังมีความสับสนอย่างน่าประหลาด มีปรากฏเป็นฉันทามติต่อการสูตรที่นำเสนอในลิงค์แรกเช่นเดียวกับในบทความวิกิพีเดีย ดูเหมือนว่าสูตรที่ใช้โดย R, Mathematica และ GSL (แต่ไม่ใช่ MATLAB) อย่างไรก็ตามบทความ Wikipedia ยังมีบรรทัดต่อไปนี้ซึ่งดูเหมือนว่ามีสติที่ดีสำหรับการดำเนินการแปรปรวนน้ำหนัก:

ตัวอย่างเช่นหากค่า {2,2,4,5,5,5} ถูกดึงมาจากการแจกแจงแบบเดียวกันเราสามารถถือว่าชุดนี้เป็นตัวอย่างที่ไม่ได้ถ่วงน้ำหนักหรือเราสามารถถือว่าเป็นตัวอย่างที่มีน้ำหนัก {2,4 5} ด้วยน้ำหนักที่สอดคล้องกัน {2,1,3} และเราควรได้ผลลัพธ์เดียวกัน

การคำนวณของฉันให้ค่า 2.1667 สำหรับความแปรปรวนของค่าดั้งเดิมและ 2.9545 สำหรับความแปรปรวนแบบถ่วงน้ำหนัก ฉันควรคาดหวังให้พวกเขาเหมือนกันหรือไม่? ทำไมหรือทำไมไม่?


6
คำถามนี้ไม่ได้เกี่ยวกับการใช้งานจริง แต่ทฤษฎีที่อยู่เบื้องหลังมัน
สับสนรหัส

คำตอบ:


15

ใช่คุณควรคาดหวังทั้งสองตัวอย่าง (ไม่ถ่วงน้ำหนักเทียบกับถ่วงน้ำหนัก) เพื่อให้ผลลัพธ์เดียวกัน

ฉันได้นำอัลกอริธึมทั้งสองมาจากบทความ Wikipedia

อันนี้ใช้ได้ผล:

หากทั้งหมดของxผมถูกดึงมาจากการกระจายเดียวกันและน้ำหนักจำนวนเต็มWผมบ่งบอกถึงความถี่ของการเกิดขึ้นในตัวอย่างแล้วประมาณเป็นกลางของประชากรแปรปรวนถ่วงน้ำหนักโดย:

s2 =1V1-1Σผม=1ยังไม่มีข้อความWผม(xผม-μ* * * *)2,

อย่างไรก็ตามอันนี้ (ใช้น้ำหนักเศษส่วน) ไม่ทำงานสำหรับฉัน:

หากว่าแต่ละคน xผม1/Wผม

s2 =V1V12-V2Σผม=1ยังไม่มีข้อความWผม(xผม-μ* * * *)2

ฉันยังคงตรวจสอบสาเหตุที่สมการที่สองไม่ทำงานตามที่ตั้งใจไว้

/ แก้ไข: พบสาเหตุที่สมการที่สองไม่ทำงานอย่างที่ฉันคิด: คุณสามารถใช้สมการที่สองได้ก็ต่อเมื่อคุณมีน้ำหนักปกติหรือความแปรปรวน ("ความน่าเชื่อถือ") และมันไม่ได้มีความเป็นกลางเพราะถ้าคุณไม่ ใช้น้ำหนัก "ซ้ำ" (นับจำนวนครั้งที่การสังเกตถูกสังเกตและควรทำซ้ำในการดำเนินการทางคณิตศาสตร์ของคุณ) คุณสูญเสียความสามารถในการนับจำนวนการสังเกตทั้งหมดและทำให้คุณไม่สามารถใช้ปัจจัยการแก้ไขได้

ดังนั้นสิ่งนี้จะอธิบายความแตกต่างในผลลัพธ์ของคุณโดยใช้ความแปรปรวนแบบถ่วงน้ำหนักและไม่ถ่วงน้ำหนัก: การคำนวณของคุณมีความเอนเอียง

ดังนั้นหากคุณต้องการความแปรปรวนแบบถ่วงน้ำหนักให้ใช้น้ำหนัก "ซ้ำ" เท่านั้นและใช้สมการแรกที่ฉันโพสต์ไว้ด้านบน หากไม่สามารถทำได้คุณก็ช่วยไม่ได้

ฉันได้อัปเดตบทความของ Wikipedia แล้วหากคุณต้องการข้อมูลเพิ่มเติม: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

และบทความที่เชื่อมโยงเกี่ยวกับความแปรปรวนร่วมแบบถ่วงน้ำหนักที่เป็นกลาง (ซึ่งอันที่จริงคือความแปรปรวนเดียวกันเนื่องจากตัวตนโพลาไรเซชัน ): สมการที่ถูกต้องสำหรับความแปรปรวนร่วมแบบถ่วงน้ำหนักที่เป็นกลาง


หลังจากอ่านและคิดมากผ่านสิ่งนี้ฉันยังไม่ได้รับความหมายที่เข้าใจง่ายหรือตัวอย่างของคำว่า "น้ำหนักความน่าเชื่อถือ" คุณช่วยอธิบายเพิ่มเติมหน่อยได้ไหม?
ปีเตอร์

@ น้ำหนักที่เชื่อถือได้ของปีเตอร์เป็นตุ้มน้ำหนักปกติเช่นล้อมรอบระหว่าง 0 และ 1 หรือ -1 และ 1 พวกเขาเป็นตัวแทนของความถี่ (เช่น 0.1 หมายความว่าตัวอย่างนี้เห็นได้ 10% ของเวลาเมื่อเทียบกับตัวอย่างอื่น ๆ ทั้งหมด) ฉันไม่ได้คิดค้นคำนี้สามารถพบได้ในสิ่งพิมพ์ สำหรับน้ำหนักที่ซ้ำกันมันเป็นสิ่งที่ตรงกันข้ามน้ำหนักแต่ละอันแทนจำนวนสิ่งที่เกิดขึ้นความสำคัญเชิงหัวใจ (เช่น 10 ถ้าตัวอย่างถูกสังเกต 10 ครั้ง)
gaborous

สิ่งนี้ทำให้เกิดความสับสนเพราะสิ่งที่คุณเรียกว่าน้ำหนักซ้ำมักเรียกอีกอย่างว่าน้ำหนักตุ้มน้ำหนักแต่ฉันคิดว่าฉันมีความแตกต่าง มันขึ้นอยู่กับการทำให้เป็นมาตรฐานใช่มั้ย
ปีเตอร์

ไม่น้ำหนักของความถี่เป็นชื่อทางเลือกสำหรับน้ำหนักที่เชื่อถือได้ สำหรับตุ้มน้ำหนักซ้ำมันเป็นจำนวนครั้งที่ปรากฏไม่ใช่ความถี่ ด้วยน้ำหนักที่ทำซ้ำไม่มีการปรับมาตรฐานเลยนั่นคือประเด็น: ตราบใดที่คุณทำให้น้ำหนักของคุณเป็นปกติคุณจะสูญเสียความถี่พื้นฐานดังนั้นคุณจึงไม่สามารถยกเลิกการคำนวณทั้งหมดได้อย่างสมบูรณ์ วิธีเดียวคือการรักษาจำนวนการเกิดทั้งหมด หากคุณต้องการใช้น้ำหนักความถี่จริง ๆ ฉันคิดว่าถ้าคุณจัดเก็บจำนวน N จำนวนครั้งที่เกิดขึ้นไว้ล่วงหน้าคุณสามารถแปลงไปมาเพื่อทำซ้ำน้ำหนักด้วยการคูณน้ำหนักความถี่ด้วย N แล้วก็ไม่เป็นไร
gaborous

และถ้าน้ำหนักของคุณเป็น 1 / น้ำหนักต่างกันคุณจะเรียกมันว่าอะไร? นั่นจะเป็น "น้ำหนักความน่าเชื่อถือ" หรือไม่?
Tom Wenseleers
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.