ทำไมตัวหารของตัวประมาณความแปรปรวนร่วมไม่ควรเป็น n-2 แทนที่จะเป็น n-1


36

ตัวหารของตัวประมาณค่าความแปรปรวน (ไม่เอนเอียง) คือเนื่องจากมีการสังเกตและมีการประมาณเพียงหนึ่งพารามิเตอร์เท่านั้นn1n

V(X)=i=1n(XiX¯)2n1

ในทำนองเดียวกันฉันสงสัยว่าทำไมตัวหารความแปรปรวนร่วมไม่ควรเป็นเมื่อมีการประมาณสองพารามิเตอร์?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

15
หากคุณไม่ว่าคุณจะมีสองคำจำกัดความขัดแย้งสำหรับแปรปรวนหนึ่งจะเป็นสูตรแรกและอื่น ๆ จะเป็นสูตรที่สองนำไปใช้กับ X Y=X
whuber

3
ค่าเฉลี่ย bi / หลายตัวแปร (ความคาดหวัง) คือหนึ่งไม่ใช่พารามิเตอร์ 2 ตัว
ttnphns

14
@ttnphns ไม่เป็นความจริง: ค่าเฉลี่ยของตัวแปรที่เห็นได้ชัดคือสองพารามิเตอร์เนื่องจากต้องการจำนวนจริงสองตัวเพื่อแสดง (อันที่จริงมันเป็นหนึ่งเวกเตอร์พารามิเตอร์ แต่พูดเท่านั้นดังนั้นปลอมความเป็นจริงมันมีสององค์ประกอบ.) นี้แสดงให้เห็นอย่างชัดเจนขึ้นในองศาอิสระสำหรับการทดสอบ T-pooled แปรปรวนเช่นที่ถูกลบออกไม่ได้1สิ่งที่น่าสนใจเกี่ยวกับคำถามนี้คือวิธีที่มันเผยให้เห็นว่าคลุมเครือไม่น่ารักและอาจทำให้เข้าใจผิดคือ "คำอธิบาย" ทั่วไปที่เราลบจากเนื่องจากมีการประมาณพารามิเตอร์หนึ่งตัว 211n
whuber

@whuber คุณพูดถูก ถ้ามันเป็นแค่ (การสังเกตอย่างอิสระ) ซึ่งสำคัญเราจะไม่ใช้จ่ายdfมากขึ้นในการทดสอบหลายตัวแปรมากกว่าในการทดสอบหลายตัวแปร n
ttnphns

3
@whuber: ฉันอาจจะบอกว่ามันแสดงให้เห็นว่าสิ่งที่นับเป็น "พารามิเตอร์" ขึ้นอยู่กับสถานการณ์ ในกรณีนี้ความแปรปรวนจะคำนวณจากการสังเกตnและดังนั้นการสังเกตแต่ละครั้ง - หรือค่าเฉลี่ยทั้งหมด - สามารถมองเห็นเป็นพารามิเตอร์เดียวแม้ว่ามันจะเป็นค่าหลายตัวแปรตามที่ ttnphns กล่าว อย่างไรก็ตามในกรณีอื่น ๆ เมื่อเช่นการทดสอบพิจารณาการรวมกันเชิงเส้นของมิติแต่ละมิติของการสังเกตแต่ละครั้งจะกลายเป็น "พารามิเตอร์" คุณถูกต้องว่านี่เป็นปัญหาที่ยุ่งยาก
อะมีบากล่าวว่า Reinstate Monica

คำตอบ:



20

กรณีพิเศษควรให้สัญชาตญาณคุณ คิดเกี่ยวกับสิ่งต่อไปนี้:

Cov^(X,X)=V^(X)

คุณมีความสุขที่หลังเนื่องจาก การแก้ไข Besseli=1n(XiX¯)2n1

แต่แทนที่ด้วยในสำหรับอดีตให้ดังนั้นตอนนี้คุณคิดว่าอะไรที่ดีที่สุดควรเติมในช่องว่าง?YXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator


1
ตกลง. แต่ OP อาจถามว่า "ทำไมต้องพิจารณา cov (X, X) และ cov (X, Y) ให้อยู่ในตรรกะหนึ่งบรรทัดทำไมคุณถึงแทนที่ Y เป็น X ใน cov () flippantly? cov (X, Y) สถานการณ์แตกต่างกันอย่างไร " คุณไม่ได้หลีกเลี่ยงในขณะที่คำตอบ (upvoted สูง) ควรจะมีในความประทับใจของฉัน :-)
ttnphns

7

คำตอบที่รวดเร็วและสกปรก ... ลองพิจารณาก่อน หากคุณมีข้อสังเกตค่าที่คาดว่าจะได้คุณจะใช้เพื่อประเมินความแปรปรวนvar(X)n E(X)=01ni=1nXi2

มูลค่าที่คาดว่าจะเป็นที่ไม่รู้จักคุณสามารถเปลี่ยนของคุณสังเกตเข้ามาในข้อสังเกตที่มีมูลค่าที่คาดว่าจะเป็นที่รู้จักกันโดยการสำหรับ n คุณจะได้สูตรที่มีในตัวส่วนอย่างไรก็ตามนั้นไม่ได้เป็นอิสระและคุณต้องคำนึงถึงเรื่องนี้ด้วย ในตอนท้ายคุณจะพบสูตรปกติnn1Ai=XiX1i=2,,nn1Ai

ทีนี้สำหรับความแปรปรวนร่วมคุณสามารถใช้แนวคิดเดียวกันได้: หากค่าคาดหวังของเท่ากับคุณจะได้ในสูตร ด้วยการลบไปยังค่าที่สังเกตได้ทั้งหมดคุณจะได้รับสังเกตด้วยค่าที่คาดไว้ที่รู้จัก ... และในสูตร - อีกครั้งสิ่งนี้แนะนำการพึ่งพาบางอย่าง บัญชี.(X,Y)(0,0)1n(X1,Y1)n11n1

ป.ล.วิธีที่สะอาดในการทำเช่นนั้นคือการเลือกพื้นฐานแบบดั้งเดิมของ , นั่นคือเวกเตอร์นั้น(1,,1)n1c1,,cn1Rn

  • jcij2=1สำหรับทุก ,i
  • jcij=0สำหรับทุก ,i
  • jci1jci2j=0สำหรับทุกI_2i1i2

จากนั้นคุณสามารถกำหนดตัวแปรและY_j มีความเป็นอิสระได้คาดว่ามูลค่าและมีความแปรปรวนเดียวกัน / แปรปรวนกว่าตัวแปรเดิมn1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

ประเด็นทั้งหมดคือถ้าคุณต้องการกำจัดความคาดหวังที่ไม่รู้จักคุณทิ้งการสังเกต (และเพียงหนึ่ง) ใช้งานได้เหมือนกันสำหรับทั้งสองกรณี


6

นี่คือข้อพิสูจน์ว่าตัวประมาณค่าความแปรปรวนร่วม p-variate กับตัวส่วนเป็นตัวประมาณค่าที่เป็นกลางของเมทริกซ์ความแปรปรวนร่วม:1n1

x=(x1,...,xp)x_p)

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

วิธีแสดง:E(S)=n1nΣ

พิสูจน์:S=1nxixix¯x¯

ต่อไป:

(1)E(xixi)=Σ+μμ

(2)E(x¯x¯)=1nΣ+μμ

ดังนั้น:E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

และเพื่อให้กับส่วนสุดท้ายเป็นที่เป็นกลาง องค์ประกอบแนวทแยงมุมของคือกลุ่มตัวอย่างส่วนบุคคลของคุณSu=nn1S1n1Su

ข้อสังเกตเพิ่มเติม:

  1. n ดึงเป็นอิสระ ใช้ใน (2) เพื่อคำนวณความแปรปรวนร่วมของค่าเฉลี่ยตัวอย่าง

  2. ขั้นตอน (1) และ (2) ใช้ข้อเท็จจริงที่ว่าCov(x)=E[xx]μμ

  3. ขั้นตอนที่ (2) ใช้ความจริงที่ว่าCov(x¯)=1nΣ


ความยากลำบากอยู่ในขั้นตอนที่ 2! :)
Elvis

@ Elvis มันยุ่ง เราจำเป็นต้องใช้กฎ Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) และรับรู้ว่าการจับรางวัลที่แตกต่างนั้นเป็นอิสระ จากนั้นก็คือการสรุปความแปรปรวนร่วม n คูณและลดขนาดลง 1 / n²
statchrist

4

ฉันเดาวิธีหนึ่งในการสร้างสัญชาตญาณที่อยู่เบื้องหลังโดยใช้ 'n-1' และไม่ใช่ 'n-2' คือ - สำหรับการคำนวณความแปรปรวนร่วมเราไม่จำเป็นต้องตัดค่าเฉลี่ยทั้ง X และ Y แต่อย่างใดอย่างหนึ่ง


คุณช่วยอธิบายรายละเอียดเกี่ยวกับวิธีการที่จะทำให้เกิดคำถามเกี่ยวกับตัวหารที่จะใช้ได้อย่างไร ความสัมพันธ์เกี่ยวกับพีชคณิตในหลักฐานเกิดขึ้นจากข้อเท็จจริงที่ว่าส่วนที่เหลือสัมพันธ์กับผลรวมเฉลี่ยเป็นศูนย์ แต่อย่างใดจะเงียบเกี่ยวกับตัวส่วนที่เกี่ยวข้อง
whuber

5
ฉันมาที่นี่เพราะฉันมีคำถามเดียวกับ OP ฉันคิดว่าคำตอบนี้อยู่ที่ nub ของประเด็น @whuber ชี้ให้เห็นข้างต้นว่ากฎของ thumb คือ df ~ = n - (พารามิเตอร์ที่ประมาณ) สามารถ "คลุมเครือไม่น่าดึงดูดและอาจทำให้เข้าใจผิด" สิ่งนี้ชี้ให้เห็นความจริงที่ว่าดูเหมือนว่าคุณจะต้องประมาณสองพารามิเตอร์ (xbar และ ybar) แต่คุณจะประมาณเพียงหนึ่งพารามิเตอร์ (xbar หรือ ybar) เท่านั้น เนื่องจาก df ควรเหมือนกันในทั้งสองกรณีจึงต้องต่ำกว่าของทั้งสอง ฉันคิดว่านั่นเป็นเจตนาที่นี่
mpettis

1

1) เริ่มต้นDFdf=2n

2) ความแปรปรวนตัวอย่างเป็นสัดส่วนกับ{Y}) เสียสอง ; จากคนหนึ่งจากผลใน(n-1)Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

3) อย่างไรก็ตามมีเพียงแง่แยกหนึ่งจากแต่ละผลิตภัณฑ์ เมื่อตัวเลขสองตัวคูณกันข้อมูลที่เป็นอิสระจากแต่ละหมายเลขจะหายไปΣi=1n(XiX¯)(YiY¯)n

เป็นตัวอย่างที่น่าเบื่อลองพิจารณาดู

24=124=212=38=46=64=83=122=241 ,

และนั่นไม่รวมถึง irrationals และเศษส่วนเช่นดังนั้นเมื่อเราคูณชุดตัวเลขสองชุดเข้าด้วยกันและตรวจสอบผลิตภัณฑ์ของพวกเขาสิ่งที่เราเห็นคือจากอนุกรมตัวเลขหนึ่งชุดในขณะที่เราสูญเสียข้อมูลต้นฉบับไปครึ่งหนึ่งนั่นคือตัวเลขสองตัวนั้นคืออะไรก่อนที่จะทำการจัดกลุ่มคู่ที่ชาญฉลาดให้เป็นหนึ่งตัวเลข (เช่นการคูณ)24=2626df=n1

ในคำอื่น ๆ โดยไม่สูญเสียความสามารถทั่วไปเราสามารถเขียน

(XiX¯)(YiY¯)=ziz¯สำหรับบางและ ,ziz¯

เช่นและ{Y} จากซึ่งเห็นได้ชัดว่ามีสูตรความแปรปรวนร่วมจะกลายเป็นzi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯){Y})

ดังนั้นคำตอบของคำถามคือถูกแบ่งครึ่งโดยการจัดกลุ่มdf


@whuber ฉันได้รับสิ่งเดียวกันบนโลกสองครั้งแล้วและลบครั้งเดียวได้อย่างไร สิ่งที่ช่วยให้? เราสามารถกำจัดหนึ่งในนั้นได้หรือไม่? สำหรับการอ้างอิงในอนาคตมีวิธีใดที่จะลบรายการที่ซ้ำกันอย่างถาวรหรือไม่ ฉันมีไม่กี่ที่แขวนอยู่รอบ ๆ และมันน่ารำคาญ
Carl

เท่าที่ฉันสามารถบอกได้คุณโพสต์คำตอบของคุณซ้ำซ้อนกับที่นี่ (ไม่มีใครมีอำนาจในการโพสต์คำตอบในชื่อของคุณ) ระบบไม่สนับสนุนการโพสต์คำตอบที่เหมือนกันในหลาย ๆ กระทู้ดังนั้นเมื่อฉันเห็นว่ามันทำให้ฉันเชื่อว่าทั้งสองกระทู้นั้นซ้ำกันอย่างสมบูรณ์ นี่เป็นโพรซีเดอร์ที่ย้ายข้อคิดเห็นและคำตอบทั้งหมดจากเธรดต้นทางไปยังเธรดเป้าหมาย จากนั้นฉันลบโพสต์ที่ซ้ำกันของคุณที่นี่ในเธรดเป้าหมาย มันจะยังคงถูกลบอย่างถาวร แต่จะปรากฏแก่คุณเช่นเดียวกับคนที่มีชื่อเสียงมากพอ
whuber

@ เมื่อไรฉันไม่รู้ว่าเกิดอะไรขึ้นในการรวมที่เกิดขึ้นหรือมีกฎหลายข้อแม้ว่าจะมองสิ่งต่าง ๆ อย่างต่อเนื่อง ต้องใช้เวลาในการเรียนรู้อดทนรอ BTW คุณจะลองพิจารณาstats.stackexchange.com/questions/251700/…จากHoldที่ไหน?
Carl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.