ความแปรปรวนร่วม“ ความจริง” หมายถึงอะไร?


15

ฉันเป็นคนที่ไม่มีสถิติดังนั้นพวกคุณได้โปรดช่วยฉันที่นี่ด้วย

คำถามของฉันมีดังต่อไปนี้: ความแปรปรวนร่วมหมายถึงอะไรจริง ๆ

เมื่อฉันมองหาสูตรสำหรับความแปรปรวนแบบรวมในอินเทอร์เน็ตฉันพบวรรณกรรมจำนวนมากที่ใช้สูตรต่อไปนี้ (ตัวอย่างเช่นที่นี่: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

แต่จริง ๆ แล้วมันคำนวณอะไร เพราะเมื่อฉันใช้สูตรนี้ในการคำนวณค่าความแปรปรวนรวมของฉันมันให้คำตอบที่ผิด

ตัวอย่างเช่นพิจารณา "ตัวอย่างหลัก" เหล่านี้:

2,2,2,2,2,8,8,8,8,8

ความแปรปรวนของกลุ่มตัวอย่างผู้ปกครองนี้เป็นและค่าเฉลี่ยของมันคือˉ x P = 5Sp2=10x¯p=5

ตอนนี้สมมติว่าฉันแยกตัวอย่างผู้ปกครองนี้ออกเป็นสองตัวอย่างย่อย:

  1. ครั้งแรกที่ย่อยตัวอย่างเป็น 2,2,2,2,2 ที่มีค่าเฉลี่ยและแปรปรวนS 2 1 = 0x¯1=2S12=0
  2. ที่สองย่อยตัวอย่างเป็น 8,8,8,8,8 ที่มีค่าเฉลี่ยและแปรปรวนS 2 2 = 0x¯2=8S22=0

ตอนนี้อย่างชัดเจนโดยใช้สูตรข้างต้นในการคำนวณค่าความแปรปรวน pooled / ผู้ปกครองของทั้งสองย่อยตัวอย่างจะผลิตเป็นศูนย์เพราะและS 2 = 0 ดังนั้นสูตรนี้จริงคำนวณอะไรS1=0S2=0

ในทางกลับกันหลังจากที่ได้รับความยาวฉันพบสูตรที่สร้างความแปรปรวน pooled / parent ที่ถูกต้องคือ:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

ในสูตรข้างต้นและd 2 = ¯ x 2 - ˉ xพีd1=x1¯x¯pd2=x2¯x¯p

ฉันพบสูตรที่คล้ายกันกับของฉันเช่นที่นี่: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html และใน Wikipedia แม้ว่าฉันจะต้องยอมรับว่าพวกเขาจะไม่เหมือนกับของฉัน

ดังนั้นอีกครั้งความแปรปรวนแบบรวมหมายความว่าอย่างไร ไม่ควรหมายถึงความแปรปรวนของตัวอย่างหลักจากสองตัวอย่างย่อยใช่หรือไม่ หรือฉันผิดที่นี่อย่างสมบูรณ์?

ขอบคุณล่วงหน้า.


แก้ไข 1: มีคนบอกว่าสองตัวอย่างย่อยของฉันด้านบนเป็นพยาธิสภาพเนื่องจากมีความแปรปรวนเป็นศูนย์ ฉันจะยกตัวอย่างให้คุณฟัง พิจารณาตัวอย่างผู้ปกครองนี้:

1,2,3,4,5,46,47,48,49,50

ความแปรปรวนของกลุ่มตัวอย่างผู้ปกครองนี้เป็นและค่าเฉลี่ยของมันคือˉ x P = 25.5Sp2=564.7x¯p=25.5

ตอนนี้สมมติว่าฉันแยกตัวอย่างผู้ปกครองนี้ออกเป็นสองตัวอย่างย่อย:

  1. ครั้งแรกที่ย่อยตัวอย่างเป็น 1,2,3,4,5 ที่มีค่าเฉลี่ยและแปรปรวนS 2 1 = 2.5x¯1=3S12=2.5
  2. ที่สองย่อยตัวอย่าง 46,47,48,49,50 มีค่าเฉลี่ยและแปรปรวนS 2 2 = 2.5x¯2=48S22=2.5

ทีนี้ถ้าคุณใช้ "สูตรของวรรณกรรม" เพื่อคำนวณความแปรปรวนพูคุณจะได้ 2.5 ซึ่งผิดทั้งหมดเพราะความแปรปรวนของผู้ปกครอง / พูรวมควรเป็น 564.7 หากคุณใช้ "สูตรของฉัน" คุณจะได้รับคำตอบที่ถูกต้อง

โปรดเข้าใจฉันใช้ตัวอย่างสุดขีดที่นี่เพื่อแสดงให้ผู้คนเห็นว่าสูตรนั้นผิดจริงๆ ถ้าฉันใช้ "ข้อมูลปกติ" ซึ่งไม่มีการเปลี่ยนแปลงมากมาย (กรณีสุดโต่ง) ผลลัพธ์จากสูตรทั้งสองนั้นจะคล้ายกันมากและผู้คนสามารถยกเลิกความแตกต่างได้เนื่องจากข้อผิดพลาดในการปัดเศษไม่ใช่เพราะสูตรนั้นเป็น ไม่ถูกต้อง.


บางลิงค์ที่เกี่ยวข้องเพื่อให้ความช่วยเหลือ: stats.stackexchange.com/q/214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q/43159/3277
ttnphns

คำตอบ:


13

กล่าวง่ายๆคือความแปรปรวนแบบรวมเป็นค่าประมาณ (ไม่เอนเอียง) ของความแปรปรวนในแต่ละตัวอย่างภายใต้สมมติฐาน / ข้อ จำกัด ที่ความแปรปรวนเหล่านั้นเท่ากัน

สิ่งนี้ถูกอธิบายจูงใจและวิเคราะห์โดยละเอียดในรายการ Wikipedia สำหรับความแปรปรวนร่วม

ไม่ได้ประมาณค่าความแปรปรวนของ "meta-sample" ใหม่ที่เกิดขึ้นจากการเชื่อมต่อสองตัวอย่างแต่ละตัวอย่างเช่นคุณ เมื่อคุณค้นพบแล้วการประมาณว่าต้องใช้สูตรที่แตกต่างอย่างสิ้นเชิง


สมมติฐานของ "ความเท่าเทียมกัน" (นั่นคือประชากรเดียวกันตระหนักถึงตัวอย่างเหล่านั้น) ไม่จำเป็นโดยทั่วไปในการกำหนดว่ามันคืออะไร - "รวม" การรวมหมายถึงค่าเฉลี่ย, รถโดยสาร (ดูความคิดเห็นของฉันต่อทิม)
ttnphns

@ttnphns ฉันคิดว่าการเท่าเทียมกันเป็นสิ่งจำเป็นสำหรับการให้ความแปรปรวนร่วมกับแนวคิดเชิงความคิด (ซึ่ง OP ขอ) ที่นอกเหนือไปจากการอธิบายด้วยวาจาถึงการดำเนินการทางคณิตศาสตร์ที่ดำเนินการกับความแปรปรวนตัวอย่าง หากความแปรปรวนประชากรไม่เท่ากันก็ไม่มีความชัดเจนในสิ่งที่เราสามารถพิจารณาความแปรปรวนร่วมที่จะประมาณ แน่นอนเราแค่คิดว่ามันเป็นการรวมกันของความแปรปรวนทั้งสองและปล่อยให้มันเป็นอย่างนั้น แต่นั่นก็แทบจะไม่ได้ตรัสรู้ในการขาดแรงจูงใจใด ๆ ที่ต้องการรวมความแปรปรวนในตอนแรก
Jake Westfall

เจคฉันไม่เห็นด้วยกับคำถามนี้จาก OP แต่ฉันต้องการพูดเกี่ยวกับคำจำกัดความของคำว่า "พู" ซึ่งเป็นเหตุผลที่ฉันพูดว่า "โดยทั่วไป"
ttnphns

@ JakeWestfall คำตอบของคุณคือคำตอบที่ดีที่สุด ขอขอบคุณ. แม้ว่าฉันยังไม่ชัดเจนเกี่ยวกับสิ่งหนึ่ง ตามที่วิกิพีเดียแปรปรวน pooled เป็นวิธีการสำหรับการประเมินความแปรปรวนของประชากรที่แตกต่างกันเมื่อค่าเฉลี่ยของประชากรแต่ละคนอาจจะแตกต่างกันแต่อย่างหนึ่งอาจคิดว่าความแปรปรวนของประชากรแต่ละเป็นเดียวกัน
Hanciong

@ JakeWestfall: ดังนั้นหากเรากำลังคำนวณความแปรปรวนรวมของกลุ่มประชากรที่แตกต่างกันสองกลุ่มด้วยค่าเฉลี่ยที่ต่างกันจริง ๆ แล้วมันคำนวณอะไร? เพราะความแปรปรวนครั้งแรกคือการวัดการเปลี่ยนแปลงที่เกี่ยวกับค่าเฉลี่ยแรกและความแปรปรวนที่สองคือเกี่ยวกับค่าเฉลี่ยที่สอง ฉันไม่รู้ว่าจะได้ข้อมูลเพิ่มเติมอะไรจากการคำนวณ
Hanciong

10

ความแปรปรวนแบบรวมใช้เพื่อรวมความแปรปรวนร่วมจากกลุ่มตัวอย่างที่แตกต่างกันโดยรับค่าเฉลี่ยถ่วงน้ำหนักเพื่อรับความแปรปรวน "โดยรวม" ปัญหาของตัวอย่างของคุณคือมันเป็นกรณีทางพยาธิวิทยาเนื่องจากตัวอย่างย่อยแต่ละตัวอย่างมีความแปรปรวนเท่ากับศูนย์ กรณีทางพยาธิวิทยาดังกล่าวมีความเหมือนกันกับข้อมูลที่เรามักจะพบบ่อยเนื่องจากมีความแปรปรวนอยู่เสมอและหากไม่มีความแปรปรวนเราไม่สนใจตัวแปรดังกล่าวเนื่องจากไม่มีข้อมูล คุณต้องสังเกตว่านี่เป็นวิธีการที่ง่ายมากและมีวิธีที่ซับซ้อนกว่าในการประมาณค่าความแปรปรวนในโครงสร้างข้อมูลแบบลำดับชั้นที่ไม่ได้มีแนวโน้มที่จะเกิดปัญหาดังกล่าว

nkx1,1,x2,1,,xn1,k,xn,kixi,jjดัชนี -th หมายถึงดัชนีกลุ่ม มีหลายสถานการณ์ที่เป็นไปได้คุณสามารถสมมติว่าจุดทั้งหมดมาจากการกระจายตัวเดียวกัน (สำหรับความเรียบง่ายสมมติการกระจายแบบปกติ)

(1)xi,jN(μ,σ2)

คุณสามารถสมมติได้ว่าแต่ละตัวอย่างย่อยมีค่าเฉลี่ยของมันเอง

(2)xi,jN(μj,σ2)

หรือความแปรปรวนของตัวเอง

(3)xi,jN(μ,σj2)

หรือแต่ละพารามิเตอร์มีพารามิเตอร์ที่แตกต่างกัน

(4)xi,jN(μj,σj2)

วิธีการบางอย่างอาจหรืออาจไม่เพียงพอสำหรับการวิเคราะห์ข้อมูลทั้งนี้ขึ้นอยู่กับสมมติฐานของคุณ

ในกรณีแรกคุณจะไม่สนใจที่จะประเมินความแปรปรวนภายในกลุ่มเนื่องจากคุณจะถือว่าพวกเขาทั้งหมดเหมือนกัน อย่างไรก็ตามหากคุณรวมความแปรปรวนร่วมระดับโลกจากความแปรปรวนกลุ่มคุณจะได้รับผลลัพธ์เดียวกันโดยใช้การแปรปรวนแบบรวมกลุ่มเนื่องจากนิยามความแปรปรวนคือ

Var(X)=1n1i(xiμ)2

n1n1+n21

ในกรณีที่สองหมายถึงแตกต่างกัน แต่คุณมีความแปรปรวนร่วมกัน ตัวอย่างนี้ใกล้เคียงกับตัวอย่างของคุณมากที่สุดในการแก้ไข ในสถานการณ์สมมตินี้ความแปรปรวนร่วมจะประมาณความแปรปรวนร่วมได้อย่างถูกต้องในขณะที่ถ้าความแปรปรวนโดยประมาณในชุดข้อมูลทั้งหมดคุณจะได้รับผลลัพธ์ที่ไม่ถูกต้องเนื่องจากคุณไม่ได้บัญชีสำหรับกลุ่มที่มีวิธีการที่แตกต่างกัน

ในกรณีที่สามไม่เหมาะสมที่จะประเมินความแปรปรวน "ทั่วโลก" เนื่องจากคุณคิดว่าแต่ละกลุ่มมีความแปรปรวนของตัวเอง คุณอาจจะสนใจในการได้รับยังคงประมาณการสำหรับประชากรทั้งหมด แต่ในกรณีดังกล่าวทั้งสอง (ก) การคำนวณค่าความแปรปรวนของแต่ละบุคคลต่อกลุ่มและ (ข) การคำนวณค่าความแปรปรวนทั่วโลกจากชุดข้อมูลทั้งหมดสามารถให้ผลลัพธ์ที่ทำให้เข้าใจผิด หากคุณกำลังจัดการกับข้อมูลประเภทนี้คุณควรนึกถึงการใช้แบบจำลองที่ซับซ้อนมากขึ้นซึ่งคำนึงถึงลักษณะลำดับชั้นของข้อมูล

กรณีที่สี่เป็นคดีที่สุดและคล้ายกับคดีก่อนหน้า ในสถานการณ์นี้ถ้าคุณต้องการประเมินค่าเฉลี่ยและความแปรปรวนทั่วโลกคุณจะต้องใช้แบบจำลองที่แตกต่างกันและชุดของสมมติฐานที่แตกต่างกัน ในกรณีเช่นนี้คุณจะสมมติว่าข้อมูลของคุณมีโครงสร้างแบบลำดับชั้นและนอกเหนือจากความหมายภายในและกลุ่มภายในแล้วยังมีความแปรปรวนทั่วไปในระดับที่สูงกว่าตัวอย่างเช่นสมมติว่ามีโมเดลดังต่อไปนี้

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

μj,σj2


ฉันได้อัปเดตคำถามของฉันด้วยตัวอย่างที่แตกต่างกัน ในกรณีนี้คำตอบจาก "สูตรของวรรณกรรม" ยังคงไม่ถูกต้อง ฉันเข้าใจว่าเรามักจะจัดการกับ "ข้อมูลปกติ" ซึ่งไม่มีกรณีที่รุนแรงอย่างตัวอย่างของฉันด้านบน อย่างไรก็ตามในฐานะนักคณิตศาสตร์คุณไม่ควรสนใจว่าสูตรใดที่ถูกต้องแน่นอนแทนที่จะใช้สูตรใดใน "ปัญหาประจำวัน / ปัญหาทั่วไป" หากสูตรบางอย่างผิดปกติควรยกเลิกโดยเฉพาะอย่างยิ่งหากมีสูตรอื่นที่ถือในทุกกรณีพยาธิวิทยาหรือไม่
Hanciong

Btw คุณบอกว่ามีวิธีที่ซับซ้อนกว่าในการประมาณค่าความแปรปรวน คุณสามารถแสดงวิธีเหล่านี้ให้ฉันได้ไหม ขอบคุณ
Hanciong

2
ทิมความแปรปรวนร่วมไม่ได้เป็นความแปรปรวนรวมของ "ตัวอย่างรวม" ในสถิติ "พู" หมายถึงค่าเฉลี่ยถ่วงน้ำหนัก (เมื่อเราพูดถึงปริมาณเฉลี่ยเช่นความแปรปรวนน้ำหนักเป็นn ) หรือเพียงแค่สรุป (เมื่อเราพูดถึงผลรวมเช่นสแกตต์ โปรดพิจารณาคำศัพท์ของคุณ (ตัวเลือกคำ) ในคำตอบ
ttnphns

1
แม้ว่าจะเป็นหัวข้อปัจจุบันนี่เป็นคำถามที่น่าสนใจเกี่ยวกับแนวคิดความแปรปรวน "ทั่วไป" stats.stackexchange.com/q/208175/3277
ttnphns

1
Hanciong ฉันยืนยันว่าแนวคิด "รวมกัน" โดยทั่วไปและแม้กระทั่งโดยเฉพาะ "แนวคิดแปรปรวนรวม" ไม่จำเป็นต้องโดยทั่วไปสมมติฐานใด ๆ เช่น: กลุ่มมาจากประชากรที่มีความแปรปรวนเท่ากัน การรวมเป็นเพียงการผสม (ค่าเฉลี่ยถ่วงน้ำหนักหรือข้อสรุป) มันอยู่ใน ANOVA และสถานการณ์ที่คล้ายคลึงกันซึ่งเราเพิ่มสมมติฐานทางสถิตินั้น
ttnphns

1

ปัญหาคือถ้าคุณต่อตัวอย่างเข้าด้วยกันและประเมินความแปรปรวนของมันคุณสมมุติว่าพวกมันมาจากการกระจายตัวเดียวกันดังนั้นจึงมีค่าเฉลี่ยเท่ากัน แต่โดยทั่วไปเราให้ความสนใจกับกลุ่มตัวอย่างที่มีค่าเฉลี่ยต่างกัน มันสมเหตุสมผลหรือไม่


0

กรณีการใช้งานของความแปรปรวนร่วมเมื่อคุณมีสองตัวอย่างจากการแจกแจงที่:

  • อาจมีวิธีการที่แตกต่างกัน แต่
  • ซึ่งคุณคาดหวังว่าจะมีความแปรปรวนที่แท้จริงเท่ากัน

nม.

ในกรณีนี้การวัดความแปรปรวนร่วมจะช่วยให้คุณประเมินความแปรปรวนของข้อผิดพลาดในการวัดได้ดีกว่าการวัดค่าความแปรปรวนของตัวอย่างเพียงอย่างเดียว


ขอบคุณสำหรับคำตอบของคุณ แต่ฉันยังไม่เข้าใจเกี่ยวกับสิ่งหนึ่ง ข้อมูลแรกให้ความแปรปรวนเทียบกับความยาวจมูกของอลิซและข้อมูลที่สองให้ความแปรปรวนเทียบกับความยาวจมูกของบ๊อบ หากคุณกำลังคำนวณความแปรปรวนร่วมจากข้อมูลเหล่านั้นมันหมายความว่าอย่างไร? เพราะความแปรปรวนครั้งแรกคือการวัดการเปลี่ยนแปลงที่เกี่ยวกับอลิซและที่สองที่เกี่ยวกับของ Bob ดังนั้นเราจะได้ข้อมูลเพิ่มเติมอะไรจากการคำนวณความแปรปรวนร่วม พวกมันเป็นตัวเลขที่ต่างกันโดยสิ้นเชิง
Hanciong

0

เราไม่ได้พยายามประมาณค่าความแปรปรวนของกลุ่มตัวอย่างที่ใหญ่กว่าด้วยการใช้กลุ่มตัวอย่างขนาดเล็ก ดังนั้นทั้งสองตัวอย่างที่คุณให้มาไม่ได้อ้างถึงคำถาม

ความแปรปรวนแบบรวมจำเป็นต้องมีการประมาณค่าความแปรปรวนประชากรที่ดีขึ้นจากสองตัวอย่างที่สุ่มจากประชากรนั้นและมาพร้อมกับการประมาณค่าความแปรปรวนที่แตกต่างกัน

ตัวอย่างคุณพยายามวัดความแปรปรวนในพฤติกรรมการสูบบุหรี่ของผู้ชายในลอนดอน คุณลองสองครั้ง 300 คนจากลอนดอน คุณจะได้รับผลต่างสองแบบ (อาจแตกต่างกันเล็กน้อย!) ตั้งแต่นี้ไปคุณสุ่มตัวอย่างอย่างยุติธรรม (ดีที่สุดกับความสามารถของคุณ! เนื่องจากการสุ่มตัวอย่างที่แท้จริงนั้นแทบจะเป็นไปไม่ได้) คุณมีสิทธิ์ทั้งหมดที่จะกล่าวว่าทั้งความแปรปรวนนั้นเป็นค่าประมาณจุดที่แท้จริงของความแปรปรวนของประชากร

แต่เป็นไปได้อย่างไร นั่นคือการประมาณสองจุดที่ต่างกัน !! ดังนั้นเราจึงไปข้างหน้าและค้นหาการประมาณจุดร่วมซึ่งเป็นความแปรปรวนร่วม มันไม่มีอะไรนอกจากค่าเฉลี่ยถ่วงน้ำหนักของการประมาณสองจุดโดยที่ตุ้มน้ำหนักเป็นระดับความเป็นอิสระที่เกี่ยวข้องกับแต่ละตัวอย่าง

หวังว่ามันจะชัดเจนขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.