เส้นตรงของความแปรปรวน


16

ฉันคิดว่าสองสูตรต่อไปนี้เป็นจริง:

Var(aX)=a2Var(X)
ในขณะที่ a เป็นค่าคงตัว
Var(X+Y)=Var(X)+Var(Y)
ถ้าX ,Yเป็นอิสระ

อย่างไรก็ตามฉันไม่แน่ใจว่ามีอะไรผิดปกติด้านล่าง:

Var(2X)=Var(X+X)=Var(X)+Var(X)
ซึ่งไม่เท่ากับ22Var(X)คือ4Var(X) )

ถ้ามันจะสันนิษฐานว่าXคือตัวอย่างที่นำมาจากประชากรผมคิดว่าเราสามารถสมมติXจะเป็นอิสระจากที่อื่น ๆX s

ดังนั้นเกิดอะไรขึ้นกับความสับสนของฉัน


8
ความแปรปรวนไม่เป็นเชิงเส้น - แสดงให้เห็นว่าคำสั่งแรกของคุณ (ถ้าเป็นคุณต้องการมี . แปรปรวนในมืออื่น ๆ เป็น bilinear.Var(aX)=aVar(X)
แบทแมน

คำตอบ:


33

ปัญหาของการใช้เหตุผลของคุณคือ

"ฉันคิดว่าเราสามารถถือว่าเป็นอิสระจากX s อื่น ๆได้เสมอ"XX

ไม่ได้เป็นอิสระของX สัญลักษณ์ Xกำลังถูกใช้เพื่ออ้างถึงตัวแปรสุ่มเดียวกันที่นี่ เมื่อคุณทราบค่าของ Xแรกที่ปรากฏในสูตรของคุณสิ่งนี้จะแก้ไขค่าของ Xที่สองที่จะปรากฏ หากคุณต้องการให้พวกเขาอ้างถึงตัวแปรสุ่มที่แตกต่างกัน (และอาจเป็นอิสระ) คุณต้องแสดงว่าพวกเขาด้วยตัวอักษรที่แตกต่างกัน (เช่น Xและ Y ) หรือใช้ตัวห้อย (เช่น X 1และ X 2 ); หลังมักจะ (แต่ไม่เสมอไป) ใช้เพื่อแสดงตัวแปรที่ดึงมาจากการแจกแจงแบบเดียวกันXXXXXXYX1X2

หากทั้งสองตัวแปรและYมีความเป็นอิสระแล้วPr ( X = | Y = )เป็นเช่นเดียวกับพีอาร์( X = ) : การรู้ค่าของYไม่ได้ให้ข้อมูลเพิ่มเติมเกี่ยวกับค่าของX แต่Pr ( X = a | X = b )คือ1ถ้าa = bและ0 เป็นอย่างอื่น: รู้ค่าของXXYPr(X=a|Y=b)Pr(X=a)YXPr(X=a|X=b)1a=b0Xให้ข้อมูลที่สมบูรณ์เกี่ยวกับค่าของX[คุณสามารถแทนที่ความน่าจะเป็นในย่อหน้านี้ด้วยฟังก์ชันการแจกแจงสะสมหรือฟังก์ชันความหนาแน่นของความน่าจะเป็นที่เหมาะสมเพื่อให้ได้ผลเช่นเดียวกัน]X

วิธีการเห็นสิ่งก็คือว่าถ้าสองตัวแปรที่มีความเป็นอิสระจากนั้นพวกเขามีความสัมพันธ์เป็นศูนย์ (แม้ว่าศูนย์ความสัมพันธ์ไม่ได้หมายความถึงความเป็นอิสระ !) แต่อยู่ในทำเลที่ดีเลิศมีความสัมพันธ์กับตัวเองCorr ( X , X ) = 1ดังนั้นXไม่สามารถเป็นอิสระ ของตัวเอง โปรดทราบว่าเนื่องจากความแปรปรวนร่วมถูกกำหนดโดยCov ( X , Y ) = Corr ( X , Y ) XCorr(X,X)=1X , จากนั้นCov(X,X)=1Cov(X,Y)=Corr(X,Y)Var(X)Var(Y)

Cov(X,X)=1Var(X)2=Var(X)

สูตรทั่วไปที่มากกว่าสำหรับความแปรปรวนของผลรวมของตัวแปรสุ่มสองตัวคือ

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

โดยเฉพาะอย่างยิ่งดังนั้นCov(X,X)=Var(X)

Var(X+X)=Var(X)+Var(X)+2Var(X)=4Var(X)

ซึ่งเป็นเช่นเดียวกับที่คุณจะอนุมานได้จากการใช้กฎ

Var(aX)=a2Var(X)Var(2X)=4Var(X)

หากคุณมีความสนใจในเชิงเส้นแล้วคุณอาจจะสนใจในbilinearityความแปรปรวนร่วม สำหรับตัวแปรสุ่ม , X , YและZ (ไม่ว่าจะขึ้นอยู่กับหรืออิสระ) และค่าคงที่a , b , cและdเรามีWXYZabcd

Cov(aW+bX,Y)=aCov(W,Y)+bCov(X,Y)

Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

และโดยรวม

Cov(aW+bX,cY+dZ)=acCov(W,Y)+adCov(W,Z)+bcCov(X,Y)+bdCov(X,Z)

จากนั้นคุณสามารถใช้สิ่งนี้เพื่อพิสูจน์ผลลัพธ์ (ไม่ใช่เชิงเส้น) สำหรับความแปรปรวนที่คุณเขียนไว้ในโพสต์ของคุณ:

Var(aX)=Cov(aX,aX)=a2Cov(X,X)=a2Var(X)

Var(aX+bY)=Cov(aX+bY,aX+bY)=a2Cov(X,X)+abCov(X,Y)+baCov(X,Y)+b2Cov(Y,Y)Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

The latter gives, as a special case when a=b=1,

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

When X and Y are uncorrelated (which includes the case where they are independent), then this reduces to Var(X+Y)=Var(X)+Var(Y). So if you want to manipulate variances in a "linear" way (which is often a nice way to work algebraically), then work with the covariances instead, and exploit their bilinearity.


1
Yes! I think you pinpointed at the beginning that the confusion was essentially a notational one. I found it very helpful when one book (very explicitly, some might say laboriously) explained the interpretation of and rules of evaluating a probabilistic statement (so that, e.g., even if you know what you mean by Pr(X+X=n) where XUniform(1..6), it is technically incorrect if you're considering throwing a n in craps (and X+X=2XX1,X2

1
2+PRNG(6)+PRNG(6)2d6=d6+d6 in which different instances are genuinely intended to be independent.
Vandermonde

@Vandermonde That's an interesting point. I initially considered mentioning the use of subscripts to distinguish between "different Xs" but didn't bother - think I might edit it in now. The argument that "you'd never get an odd total score if the sum was 2X" is very clear and convincing to someone who can't see the need to distinguish: thanks for sharing it.
Silverfish

0

Another way of thinking about it is that with random variables 2XX+X.

2X would mean two times the value of the outcome of X, while X+X would mean two trials of X. In other words, it's the difference between rolling a die once and doubling the result, vs rolling a die twice.


+1 This is a perfectly clear and correct answer. Welcome to our site!
whuber

Thanks @whuber!
Benjamin
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.