ทำไมค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรสุ่ม X และ XY มีแนวโน้มที่จะเป็น 0.7


49

นำมาจากสถิติเชิงปฏิบัติสำหรับการวิจัยทางการแพทย์ที่ Douglas Altman เขียนไว้ในหน้า 285:

... สำหรับสองปริมาณ X และ Y ใด ๆ X จะสัมพันธ์กับ XY แน่นอนแม้ว่า X และ Y เป็นตัวอย่างของตัวเลขสุ่มเราคาดหวังว่าความสัมพันธ์ของ X และ XY จะเท่ากับ 0.7

ฉันพยายามใน R และดูเหมือนว่าจะเป็นกรณี:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

ทำไมถึงเป็นอย่างนั้น? ทฤษฎีที่อยู่เบื้องหลังสิ่งนี้คืออะไร?


ส่วนไหนที่คุณต้องการคำอธิบาย คุณแค่ต้องการสมการที่ง่ายขึ้นสำหรับความสัมพันธ์ที่เกิดขึ้นเนื่องจากความสัมพันธ์ที่รู้จักระหว่าง x, y และและความแปรปรวนร่วมระหว่าง x และ xy หรือไม่? หรือคุณแค่อยากรู้ว่าทำไมมีความแปรปรวนร่วมที่นี่หรือไม่?
John

สิ่งนี้เป็นจริงสำหรับXและYใด ๆ หรือไม่? สมมติว่าและมี uncorrelated และให้Yจากนั้นฉันสงสัยว่าจะไม่ได้มีความสัมพันธ์กับXYXYZ Y = X - Z X X - YXZY=X-ZXX-Y
เฮนรี่

คำตอบ:


69

ถ้าและYเป็นตัวแปรสุ่มที่ไม่มีการเชื่อมโยงซึ่งมีความแปรปรวนเท่ากันσ 2เราจะได้varนั้น ( X - Y )XYσ2 ดังนั้นρX,X-Y=cov(X,X-Y)

var(X-Y)=var(X)+var(-Y)=var(X)+var(Y)=2σ2,COV(X,X-Y)=COV(X,X)-COV(X,Y)ความแปรปรวนของผู้แปรปรวนร่วม=var(X)-00 เพราะ X และ Y ไม่เกี่ยวข้องกัน=σ2.
ดังนั้นเมื่อคุณพบ n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,X-Y=COV(X,X-Y)var(X)var(X-Y)=σ2σ22σ2=12.
ตัวอย่างความสัมพันธ์ของxและx-yสำหรับชุดข้อมูลขนาดใหญ่{(xi,yi):1in
Σผม=1n(xผม-x¯)((xผม-Yผม)-(x¯-Y¯))Σผม=1n(xผม-x¯)2Σผม=1n((xผม-Yผม)-(x¯-Y¯))2
xx-Yดึงมาจากประชากรที่มีคุณสมบัติเหล่านี้ซึ่งรวมถึง "ตัวเลขสุ่ม" เป็นกรณีพิเศษผลลัพธ์มีแนวโน้มที่จะใกล้เคียงกับค่าสหสัมพันธ์ของประชากร 1{(xผม,Yผม):1ผมn}120.7071...

คุณช่วยอธิบายเพิ่มเติมอีกหน่อยได้อย่างไรcov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X) เป็นชื่ออื่นสำหรับ var (X) cov (X, Y) = 0 เนื่องจาก X และ Y ถูกสันนิษฐานว่าไม่มีความสัมพันธ์ (ดังนั้นความแปรปรวนร่วม = 0)
Dilip Sarwate

58

คำอธิบายทางสถิติเชิงเรขาคณิต

n 2 XYXY

XYR=0

XY

X-YX+Y

X-YX+Y2σ2XX-YX+Y0.707 ...

ป้อนคำอธิบายรูปภาพที่นี่


4
+1 ที่ยอดเยี่ยมสำหรับการแชร์วิธีการนี้
whuber

(+1) นั่นเป็นวิธีการนำเสนอที่ประณีตมาก!
Matt Krause

อ่า ... ภาพ! (+1) ทำได้ดีมาก :-)
พระคาร์ดินัล

11

ฉันเชื่อว่ามีสัญชาตญาณง่าย ๆ ตามความสมมาตรที่นี่เช่นกัน เนื่องจาก X และ Y มีการแจกแจงแบบเดียวกันและมีความแปรปรวนร่วมเป็น 0 ความสัมพันธ์ของ X ± Y กับ X จึงควร "อธิบาย" ครึ่งหนึ่งของการแปรผันใน X ± Y; อีกครึ่งหนึ่งควรอธิบายโดย Y ดังนั้น R 2ควรเป็น 1/2 ซึ่งหมายความว่า R คือ 1 / √2≈ 0.707


R2=12R1/21/2

ไม่นั่นไม่ใช่มาตรฐานจริงๆ (หากคุณต้องการหลักฐานให้ดูที่คำตอบที่ดีที่สุดคน 38 คนที่ลงคะแนนให้แล้วไม่ได้เล่นลิ้นด้วยสัญกรณ์เดียวกัน)
denn333

R2=1/2R=1/2

3

นี่เป็นวิธีง่ายๆในการคิดว่าทำไมมันถึงมีความสัมพันธ์กัน

ลองนึกภาพสิ่งที่เกิดขึ้นเมื่อคุณลบการแจกแจงสองค่า หากค่าของ x ต่ำดังนั้นโดยเฉลี่ยx - yจะเป็นค่าที่ต่ำกว่าถ้าค่าของ x สูง เมื่อ x เพิ่มขึ้นก็จะx - yเพิ่มขึ้นโดยเฉลี่ยและมีความสัมพันธ์เชิงบวก


4
ฉันไม่คิดว่าคำพูดของคุณจะเป็นจริงเสมอ"จะมีความสัมพันธ์ระหว่างการแจกแจงแบบสุ่มสองครั้งเสมอเมื่อมีความสัมพันธ์ทางคณิตศาสตร์" เช่นx <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
อยากรู้อยากเห็น _cat

4
@c__cat: หรืออาจจะนำมาซึ่งอารมณ์มากขึ้นวางyทั้งหมด :-)
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.