ทำไมชุดข้อมูลนี้จึงไม่มีความแปรปรวนร่วม


8

ความเข้าใจของฉันเกี่ยวกับความแปรปรวนร่วมในการทำงานคือข้อมูลที่มีความสัมพันธ์ควรมีความแปรปรวนร่วมค่อนข้างสูง ฉันเจอสถานการณ์ที่ข้อมูลของฉันดูมีความสัมพันธ์ (ดังที่แสดงในพล็อตกระจาย) แต่ความแปรปรวนร่วมอยู่ใกล้ศูนย์ ความแปรปรวนร่วมของข้อมูลจะเป็นศูนย์ได้อย่างไรถ้าพวกมันมีความสัมพันธ์กัน?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

ป้อนคำอธิบายรูปภาพที่นี่


4
คำแนะนำ: จะเกิดอะไรขึ้นเมื่อคุณดูความสัมพันธ์? ความแปรปรวนร่วมกับความสัมพันธ์ต่างกันอย่างไร
เผยแพร่

2
หากคุณกำลังวัดจำนวนที่มีขนาดเล็กหรือใกล้กันในระดับหนึ่งความแตกต่างระหว่างพวกเขาก็จะดูเล็กและผลิตภัณฑ์ของความแตกต่างก็ดูเล็กลง ลองคูณข้อมูลทั้งหมดด้วยแล้วทำการคำนวณซ้ำอีกครั้ง ความแปรปรวนร่วมควรมีขนาดใหญ่เท่าเท่า10001000000
Henry

คำตอบ:


14

ขนาดของความแปรปรวนร่วมนั้นขึ้นอยู่กับขนาดของข้อมูลและการกระจายของจุดข้อมูลเหล่านั้นรอบ ๆ ค่าเฉลี่ยของข้อมูลนั้น ๆ ง่ายที่จะเห็นเมื่อคุณดูสูตร:

covx,y=(xix¯)(yiy¯)n1

ในกรณีของคุณความเบี่ยงเบนของx1และx2ข้อมูลชี้ไปที่ค่าเฉลี่ยx1และx2คือ:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

ทีนี้ถ้าคุณคูณเวกเตอร์สองตัวเข้าด้วยกันคุณจะได้จำนวนค่อนข้างน้อย:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

ตอนนี้หาผลรวมและเบี่ยงเบนจากและคุณมีความแปรปรวนร่วม:n1

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

นั่นเป็นเหตุผลที่ว่าทำไมขนาดของความแปรปรวนที่ไม่พูดมากเกี่ยวกับความแรงของวิธีการx1และx2ร่วมแตกต่างกันไป โดยมาตรฐาน (หรือ normalizing) ความแปรปรวนร่วมนั่นคือการหารด้วยผลคูณของค่าเบี่ยงเบนมาตรฐานของx1และx2(คล้ายกับความแปรปรวนร่วมมากเช่น2.609127e-05)

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

คุณได้ค่าสัมประสิทธิ์สหสัมพันธ์สูงซึ่งยืนยันสิ่งที่คุณเห็นในพล็อตของคุณr=0.99


7

ลองพูดคุยเกี่ยวกับสิ่งที่สามารถเห็นได้จากภาพรวมอย่างรวดเร็วในการวางแผนและการตรวจสอบความสมเหตุสมผล (นี่คือสิ่งที่เราสามารถทำได้เมื่อมองดูข้อมูลเพียงแค่ติดอาวุธด้วยข้อเท็จจริงพื้นฐานเล็กน้อย):

อย่างไรก็ตามทราบขอให้เป็นครั้งแรกว่ารุ่น -denominator ของส่วนเบี่ยงเบนมาตรฐานไม่เกินครึ่งหนึ่งของช่วง (คนหารรุ่นสามารถ แต่มีมากกว่าข้อสังเกตไม่กี่ไม่มาก)nn1

ช่วงที่อยู่กับตัวแปรทั้งสองอยู่ในคำสั่งของ 0.02 (ประมาณ) เพื่อความแปรปรวนที่ควรจะไม่เกินประมาณครึ่งหนึ่งที่สแควร์หรือประมาณ4}104

ดังนั้นค่าที่สังเกตได้ของผลต่างในผลลัพธ์ของคุณจึงสมเหตุสมผล พวกเขาทั้งสองน้อยกว่านั้น แต่มากกว่าหนึ่งในสิบของมัน

ค่าสัมบูรณ์ของความแปรปรวนร่วมนั้นจะต้องไม่เกินค่าเฉลี่ยเรขาคณิตของความแปรปรวนทั้งสอง (มิฉะนั้นความสัมพันธ์อาจเกิน 1) ดังนั้นค่าสัมบูรณ์ของความแปรปรวนร่วมไม่ควรเกินของผลผลิตของช่วง14

ดังนั้นหากช่วงของตัวแปรทั้งสองทั้งสองใกล้กับเราไม่สามารถคาดหวังความแปรปรวนที่แน่นอนที่จะเกิน4}0.02(0.02)2/4=104

จากการวิเคราะห์คร่าวๆนั้นไม่มีอะไรน่าประหลาดใจ

การวิเคราะห์ที่แม่นยำยิ่งขึ้นมาจากการคำนวณจริงโดยใช้ช่วงที่แม่นยำยิ่งขึ้นจากนั้นคิดเกี่ยวกับรูปร่างของการแจกแจงร่อแร่:
ช่วงอยู่ภายใต้และตามลำดับดังนั้นความแปรปรวนร่วมไม่ควรเกินแต่เนื่องจากการแจกแจงร่อแร่ไม่ได้มีการแจกแจงแบบเกือบสองสมมาตรจึงต้องมีค่าน้อยกว่านั้นเล็กน้อย0.0230.0158.6×105

ที่จริงถ้าเราบอกว่ามันไม่ได้อยู่ห่างจากชุดเดียวกันความแปรปรวนร่วมจะถูก จำกัด โดยสิ่งที่ใกล้กว่า 1/12 ของผลิตภัณฑ์มากกว่า 1/4 - นั่นคือสำหรับชุดรูปแบบคร่าว ๆ กับช่วงเหล่านั้นมันจะน้อยกว่าประมาณ - แต่ไม่มากน้อยนักเพราะมีความสัมพันธ์สูง [ตัวแปรเหล่านี้ไม่เหมือนกัน - พวกมันถูกทิ้งให้เอียง - แต่มันใกล้เคียงกับจุดประสงค์ของเราในปัจจุบัน]2.9×105

ดังนั้นเพียงแค่จากการมองที่หลากหลายของแต่ละตัวแปรและความรู้สึกคร่าวๆของการกระจายขอบและความสัมพันธ์ในพล็อตที่ผมคาดหวังแปรปรวนจะเป็นบิตน้อยกว่า5} มันเป็นจริงเกี่ยวกับ5}2.9×1052.6×105

(ไม่เลวร้ายนักสำหรับการคำนวณ back-of-the- ซองจดหมายอย่างรวดเร็วเริ่มต้นด้วยช่วงตัวเลขสองหลัก!)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.