คุณจะอธิบายความแตกต่างระหว่างสหสัมพันธ์และความแปรปรวนร่วมได้อย่างไร


109

การติดตามคำถามนี้คุณจะอธิบายความแปรปรวนร่วมของคนที่เข้าใจค่าเฉลี่ยได้อย่างไร ซึ่งกล่าวถึงปัญหาของการอธิบายความแปรปรวนร่วมกับบุคคลทั่วไปทำให้เกิดคำถามคล้ายกันขึ้นมาในใจ

หนึ่งจะอธิบายให้ neophyte สถิติความแตกต่างระหว่างความแปรปรวนร่วมและสหสัมพันธ์อย่างไร ดูเหมือนว่าทั้งสองอ้างถึงการเปลี่ยนแปลงในตัวแปรหนึ่งที่เชื่อมโยงกลับไปยังตัวแปรอื่น

คล้ายกับคำถามที่อ้างถึงการขาดสูตรจะดีกว่า

คำตอบ:


109

ปัญหาของความแปรปรวนร่วมนั้นยากที่จะเปรียบเทียบ: เมื่อคุณคำนวณความแปรปรวนร่วมของชุดของความสูงและน้ำหนักดังที่แสดงในหน่วยเมตรและกิโลกรัม (ตามลำดับ) คุณจะได้รับความแปรปรวนร่วมที่แตกต่างจากเมื่อคุณทำในหน่วยอื่น ๆ ซึ่งทำให้เกิดปัญหาสำหรับผู้ที่ทำสิ่งเดียวกันโดยมีหรือไม่มีระบบเมตริก!) แต่ก็ยากที่จะบอกได้ว่า (เช่น) ส่วนสูงและน้ำหนัก 'โควารีมากกว่า' พูดความยาวนิ้วเท้าและนิ้วของคุณหรือไม่ เพียงเพราะ 'มาตราส่วน' ความแปรปรวนร่วมที่คำนวณได้นั้นแตกต่างกัน

วิธีแก้ปัญหานี้คือ 'ทำให้ปกติ' ความแปรปรวนร่วม: คุณแบ่งความแปรปรวนร่วมโดยบางสิ่งที่แสดงถึงความหลากหลายและมาตราส่วนทั้งในความแปรปรวนร่วมและจบลงด้วยค่าที่มั่นใจได้ว่าจะอยู่ระหว่าง -1 ถึง 1: ความสัมพันธ์ ไม่ว่าหน่วยตัวแปรดั้งเดิมของคุณจะเป็นอะไรคุณก็จะได้ผลลัพธ์เหมือนเดิมเสมอและสิ่งนี้จะช่วยให้แน่ใจว่าคุณสามารถทำได้ในระดับหนึ่งเปรียบเทียบว่าตัวแปรสองตัวนั้นมีความสัมพันธ์กันมากกว่าสองตัวแปรโดยการเปรียบเทียบความสัมพันธ์ของพวกเขา

หมายเหตุ: ข้างต้นถือว่าผู้อ่านเข้าใจแนวคิดความแปรปรวนร่วมอยู่แล้ว


2
+1 คุณหมายถึงการเขียน "สหสัมพันธ์" แทนที่จะเป็น "ความแปรปรวนร่วม" ในประโยคสุดท้ายหรือไม่?
whuber

คุณแน่ใจหรือว่าคุณไม่สามารถเปรียบเทียบโควาเรียสกับหน่วยที่แตกต่างกันได้ หน่วยผ่านแปรปรวนคูณ - ถ้า X ของคุณอยู่ในcmและ Y ของคุณอยู่ในsนั้นของคุณ s จากนั้นคุณก็คูณผลลัพธ์ด้วยปัจจัยการแปลงหน่วย ลองใช้ใน R:โอโวลต์(X,Y)=Z ม.scov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101

3
@ naught101 ฉันสงสัยว่าประเด็นคือถ้าฉันบอกคุณว่าและไม่มีอะไรอื่นคุณจะไม่มีเงื่อนงำว่าXเป็นคำทำนายที่สูงของYหรือไม่ในขณะที่ถ้าฉันบอกว่าคุณCor ( X , Y ) = .9คุณจะมีสิ่งที่ตีความได้มากกว่านี้เล็กน้อย Cov(X,Y)=1010XYCor(X,Y)=.9
คนที่แต่งตัวประหลาด

@guy: นั่นจะเป็นความแปรปรวนร่วมที่ไม่มีหน่วย: PI คิดว่าสิ่งสำคัญคือคุณไม่สามารถเปรียบเทียบความแปรปรวนร่วมได้ง่ายจากชุดข้อมูลสองชุดที่มีความแปรปรวนต่างกัน ตัวอย่างเช่นถ้าคุณมีความสัมพันธ์ B = 2 * A และชุดข้อมูลสองชุดคือ {A1, B1} และ {A2, B2} โดยที่ A1 มีความแปรปรวน 0.5 และ A2 มีความแปรปรวนเท่ากับ 2 ดังนั้นจะมีขนาดใหญ่กว่าc o v ( A 1 , B 1 )แม้ว่าความสัมพันธ์จะเหมือนกันทุกประการ cov(A2,B2)cov(A1,B1)
naught101

3
ดังนั้นในการแก้ไขคำศัพท์ง่าย ๆ > ความแปรปรวนร่วม
Karl Morrison

58

ความต้องการของคำถามประเภทนี้ทำให้ฉันรู้สึกประหลาดใจเล็กน้อย นี่คือแนวคิด / สูตรทางคณิตศาสตร์แต่ฉันต้องการพูดถึงมันในบางบริบทโดยสิ้นเชิงโดยไม่มีสัญลักษณ์ทางคณิตศาสตร์ ฉันยังคิดว่าควรระบุด้วยว่าพีชคณิตจริงที่จำเป็นต่อการทำความเข้าใจกับสูตรฉันคิดว่าควรได้รับการสอนให้กับคนส่วนใหญ่ก่อนการศึกษาระดับอุดมศึกษา (ไม่จำเป็นต้องมีความเข้าใจเกี่ยวกับพีชคณิตเมทริกซ์

ดังนั้นในตอนแรกแทนที่จะมองข้ามสูตรอย่างสิ้นเชิงและพูดถึงมันในการเปรียบเทียบที่มีมนต์ขลังและแบบฮิวริสติกลองดูสูตรแล้วพยายามอธิบายส่วนประกอบแต่ละชิ้นในขั้นตอนเล็ก ๆ ความแตกต่างในแง่ของความแปรปรวนร่วมและสหสัมพันธ์เมื่อดูสูตรควรจะชัดเจน ในขณะที่การพูดในแง่ของการเปรียบเทียบและการวิเคราะห์พฤติกรรมฉันสงสัยว่าจะทำให้เสียความคิดสองแนวคิดที่ค่อนข้างง่ายและความแตกต่างของพวกเขาในหลาย ๆ สถานการณ์

ดังนั้นขอเริ่มด้วยสูตรสำหรับความแปรปรวนร่วมตัวอย่าง (สิ่งเหล่านี้ฉันเพิ่งถ่ายและนำมาใช้จากวิกิพีเดีย);

1n-1Σผม=1n(xผม-x¯)(Yผม-Y¯)

เพื่อให้ทุกคนได้อย่างรวดเร็วให้กำหนดองค์ประกอบและการทำงานทั้งหมดในสูตรอย่างชัดเจน

  • และ y iแต่ละการวัดของคุณลักษณะสองอย่างแยกกันของการสังเกตเดียวกันxผมYผม
  • และ ˉ yเป็นค่าเฉลี่ย (หรือค่าเฉลี่ย) ของแต่ละแอตทริบิวต์x¯Y¯
  • สำหรับ , ช่วยให้เพียงแค่พูดแบบนี้หมายความว่าเราแบ่งผลสุดท้ายโดยn-11n-1n-1
  • อาจเป็นสัญลักษณ์ต่างประเทศสำหรับบางคนดังนั้นจึงน่าจะมีประโยชน์ในการอธิบายการดำเนินการนี้ มันเป็นเพียงผลรวมของทั้งหมดที่ฉันแยกสังเกตและ nหมายถึงจำนวนของการสังเกตΣผม=1nผมn

ณ จุดนี้ฉันอาจแนะนำตัวอย่างง่ายๆเพื่อพูดคุยเกี่ยวกับองค์ประกอบและการดำเนินงานเพื่อพูด ตัวอย่างเช่นให้สร้างตารางโดยที่แต่ละแถวสอดคล้องกับการสังเกต (และและyมีป้ายกำกับอย่างเหมาะสม) มีแนวโน้มว่าจะทำให้ตัวอย่างเหล่านี้มีความเฉพาะเจาะจงมากขึ้น (เช่นพูดว่าxแทนอายุและyหมายถึงน้ำหนัก) แต่สำหรับการสนทนาของเราที่นี่มันไม่ควรสำคัญxYxY

x y
---
2 5
4 8
9 3
5 6
0 8

ณ จุดนี้ถ้าคุณรู้สึกว่าการดำเนินการผลรวมในสูตรอาจไม่ได้รับการเข้าใจอย่างสมบูรณ์คุณสามารถแนะนำมันอีกครั้งในบริบทที่ง่ายกว่ามาก พูดเพียงแค่นำเสนอว่าเหมือนกับการพูดในตัวอย่างนี้Σผม=1n(xผม)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

ตอนนี้ความยุ่งเหยิงนั้นควรจะหมดไปและเราสามารถทำงานในส่วนที่สองของสูตร) ทีนี้สมมติว่าผู้คนรู้แล้วว่าค่าเฉลี่ยคืออะไร, ˉ xและ ˉ yหมายถึง,และฉันจะพูดว่า, เมื่อคุณเสแสร้งความคิดเห็นของฉันเองก่อนหน้านี้ในโพสต์, เราสามารถอ้างถึงค่าเฉลี่ยในแง่ของฮิวริสติกแบบง่าย ๆ ของการกระจาย) จากนั้นหนึ่งสามารถใช้กระบวนการนี้ทีละการดำเนินการ คำแถลง ( x i - ˉ x )(xผม-x¯)(Yผม-Y¯)x¯Y¯(xผม-x¯)เป็นเพียงการตรวจสอบความเบี่ยงเบน / ระยะห่างระหว่างการสังเกตแต่ละครั้งและค่าเฉลี่ยของการสังเกตทั้งหมดสำหรับคุณลักษณะเฉพาะนั้น ดังนั้นเมื่อการสังเกตอยู่ไกลจากค่าเฉลี่ยการดำเนินการนี้จะได้รับค่าที่สูงกว่า จากนั้นหนึ่งสามารถอ้างอิงกลับไปที่ตารางตัวอย่างที่กำหนดและแสดงให้เห็นถึงการดำเนินการบนเวกเตอร์ของการสังเกตx

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

การดำเนินการเหมือนกันสำหรับ vector แต่สำหรับการเสริมแรงคุณสามารถแสดงการดำเนินการนั้นได้เช่นกันY

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

ทีนี้เงื่อนไขและ( y i - ˉ y(xผม-x¯)(Yผม-Y¯)(xผม-x¯)(Yผม-Y¯)

จดสิ่งที่เกิดขึ้นเมื่อทำการคูณหากการสังเกตสองครั้งนั้นทั้งสองอยู่ห่างจากค่าเฉลี่ยมากการสังเกตที่เกิดขึ้นจะมีค่าเป็นบวกที่ยิ่งใหญ่กว่าเดิม เท่ากับค่าบวก) โปรดสังเกตว่าหากการสังเกตหนึ่งครั้งสูงกว่าค่าเฉลี่ยและอีกข้อสังเกตอยู่ต่ำกว่าค่าเฉลี่ยผลลัพธ์ที่ได้จะมีขนาดใหญ่ (ในรูปแบบสัมบูรณ์) และลบ (ตามเวลาที่เป็นบวกลบจะเท่ากับจำนวนลบ) ในที่สุดโปรดทราบว่าเมื่อค่าใกล้เคียงกับค่าเฉลี่ยของการสังเกตอย่างใดอย่างหนึ่งการคูณสองค่าจะส่งผลให้มีจำนวนน้อย เราสามารถแสดงการดำเนินการนี้ในตารางอีกครั้ง

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

n-1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

ณ จุดนี้คุณอาจต้องการเสริมกำลังที่มาจาก 5 แต่ควรง่ายเหมือนการอ้างอิงกลับไปที่ตารางและนับจำนวนการสังเกต (ช่วยให้ความแตกต่างระหว่างกลุ่มตัวอย่างกับประชากรอีกครั้ง)

ρ

ρ=Cโอโวลต์(x,Y)VaR(x)VaR(Y)

Cโอโวลต์(x,x)=VaR(x)) และแนวคิดเดียวกันทั้งหมดที่คุณนำมาใช้กับความแปรปรวนร่วมนั้นใช้ (เช่นถ้าซีรีส์มีค่ามากมายวิธีที่ห่างไกลจากค่าเฉลี่ยมันจะมีความแปรปรวนสูง) อาจทราบได้ที่นี่ว่าชุดไม่สามารถมีความแปรปรวนเชิงลบเช่นกัน (ซึ่งควรมีเหตุผลตามจากคณิตศาสตร์ที่นำเสนอก่อนหน้านี้)

VaR(x)VaR(Y)VaR(x)VaR(Y)

ฉันเข้าใจในบางสถานการณ์การรักษาระดับนี้จะไม่เหมาะสม วุฒิสภาต้องการบทสรุปผู้บริหาร ในกรณีนี้คุณสามารถอ้างถึงฮิวริสติกแบบเรียบง่ายที่ผู้คนใช้ในตัวอย่างอื่น ๆ แต่โรมไม่ได้สร้างขึ้นในวันเดียว และวุฒิสภาขอให้ผู้บริหารสรุปถ้าคุณมีเวลาน้อยบางทีคุณควรจะเอาคำพูดของฉันมันและแจกจ่ายให้กับพิธีการของการเปรียบเทียบและสัญลักษณ์แสดงหัวข้อย่อย


4
COV(X,Y)=E[(X-E[X])(Y-E[Y])]
ซีอาน

14
+1 นี่ค่อนข้างดี อย่างไรก็ตามฉันจะไม่วิจารณ์เรื่องแนวคิดที่สำคัญ ฉันได้ทำงานกับคนที่มีความวิตกกังวลทางคณิตศาสตร์มากพอที่แสดงสูตรน่าจะสูญเสียพวกเขา ฉันมักจะได้รับพวกเขาขึ้นอยู่กับความเร็ว w / สัญชาตญาณที่ 1 และจากนั้นเดินผ่านคณิตศาสตร์เพียงและทั่วถึง (เท่าที่คุณทำที่นี่) หลังจากนั้น ด้วยวิธีนี้พวกเขาเพียงแค่เรียนรู้ว่าคณิตศาสตร์เป็นตัวแทนของสิ่งที่พวกเขารู้อยู่แล้วและหากพวกเขาเลิกใช้สติปัญญาพวกเขายังคงได้เรียนรู้แนวคิดใหญ่ ๆ ในฐานะที่เป็นจุดสัมผัสฉันทำงานแม้ว่าคณิตศาสตร์ใน Excel ซึ่งฉันพบว่าดีมากสำหรับสิ่งนี้
gung

2
ยังไม่มีข้อความยังไม่มีข้อความ-1(xผม-x¯)(Yผม-Y¯)ρRไม่ใช่ความแปรปรวนดูที่นี่เช่น
gung

ขอบคุณ @ gung ฉันเปลี่ยนการพิมพ์ผิดในสูตรแรกและจากนั้นสำหรับความสัมพันธ์ฉันเอาสแควร์รูทของความแปรปรวนคูณ (แทนการกำหนดค่าเบี่ยงเบนมาตรฐาน) ในการใช้ Rho กับสัญลักษณ์อื่นฉันไม่รู้สึกอย่างใดอย่างหนึ่ง ถ้าฉันสอนและมีหนังสือฉันน่าจะแค่อยากจะสอดคล้องกับเนื้อหา หวังว่าอีกหนึ่งสัญลักษณ์กรีกจะไม่ทำให้เกิดความสับสนวุ่นวาย!
Andy W

1
ถ้าฉันสามารถโหวตคำตอบของคุณได้ 100 ครั้ง ช่างเป็นคำอธิบายที่ชัดเจนมาก!
Julian A.

10

VaR[x]VaR[Y]

นั่นคือความสัมพันธ์เป็นเพียงตัวแทนของความแปรปรวนร่วมดังนั้นผลลัพธ์จะต้องอยู่ระหว่าง -1 (มีความสัมพันธ์แบบผกผันอย่างสมบูรณ์) และ +1 (มีความสัมพันธ์เชิงบวกอย่างสมบูรณ์แบบ) โดยสังเกตว่าค่าใกล้เคียงกับศูนย์หมายความว่า

ความแปรปรวนร่วมนั้นไม่มีขอบเขตและขาดบริบทเมื่อเปรียบเทียบกับความแปรปรวนร่วมอื่น ๆ โดย Normalizing / ปรับ / มาตรฐาน covariances เป็นสหสัมพันธ์ชุดข้อมูลสามารถเปรียบเทียบได้ง่ายขึ้น

อย่างที่คุณสามารถจินตนาการได้มีหลายวิธีที่สถิติ (เช่นความแปรปรวนร่วม) สามารถทำให้เป็นมาตรฐาน / เป็นมาตรฐานได้ สูตรทางคณิตศาสตร์สำหรับความสัมพันธ์ระหว่างสหสัมพันธ์และความแปรปรวนร่วมเพียงสะท้อนให้เห็นถึงสถิติการประชุมที่ใช้ (กล่าวคือปรับตามค่าเบี่ยงเบนมาตรฐานของพวกเขา):

R=โอโวลต์(x,Y)VaR[x]VaR[Y]

5

หากคุณคุ้นเคยกับแนวคิดของการจัดกึ่งกลางและกำหนดมาตรฐาน x-xbar คือการจัดกึ่งกลาง x ที่ค่าเฉลี่ย เช่นเดียวกับ y ความแปรปรวนร่วมเพียงแค่จัดศูนย์กลางข้อมูล อย่างไรก็ตามความสัมพันธ์ไม่เพียง แต่จัดให้อยู่กึ่งกลางข้อมูลเท่านั้น แต่ยังปรับขนาดโดยใช้ส่วนเบี่ยงเบนมาตรฐาน (มาตรฐาน) การคูณและการรวมกันนั้นคือผลคูณจุดของเวกเตอร์สองตัวและมันบอกว่าเวกเตอร์สองตัวนี้ขนานกันอย่างไรเมื่อเปรียบเทียบกัน การหารของ (n-1) หรือการรับค่าที่คาดหวังคือการปรับขนาดสำหรับจำนวนการสังเกต คิด?



-3

ความสัมพันธ์จะถูกปรับให้อยู่ระหว่าง -1 ถึง +1 ขึ้นอยู่กับว่ามีความสัมพันธ์ในเชิงบวกหรือเชิงลบและไม่มีมิติ ความแปรปรวนร่วมนั้นอยู่ในช่วงตั้งแต่ศูนย์ในกรณีของตัวแปรอิสระสองตัวถึง Var (X) ในกรณีที่ชุดข้อมูลสองชุดมีค่าเท่ากัน หน่วยของ COV (X, Y) คือหน่วยของ X คูณหน่วยของ Y


6
ความแปรปรวนร่วมอาจเป็นลบได้ดังนั้นจึงไม่ จำกัด ที่ 0 มันยังไม่ชัดเจนสำหรับฉันว่าคุณหมายถึงประโยคสุดท้ายของคุณThe units of COV(X,Y) are the units of X times the units of Y.สนใจที่จะอธิบายอย่างละเอียดไหม?
Andy W

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

1
@ naught101 หน่วยผ่าน? ความคิดเห็นเริ่มต้นของฉันที่ Nagaraj คือเพื่อให้ชัดเจนยิ่งขึ้นเนื่องจากข้อความที่คลุมเครือเช่นข้อความที่ยกมาฉันขอยืนยันว่าไม่มีประโยชน์กับใครเลย ดังนั้นทำไมเราไม่สามารถตีความความแปรปรวนร่วมเป็น "หน่วย x คูณด้วยหน่วยของ y" เพราะนั่นไม่ใช่สิ่งที่มันเป็น คำแถลงที่ถูกต้องมากขึ้น (สำหรับความแปรปรวนร่วมตัวอย่าง) น่าจะเป็น " ค่าเฉลี่ยของผลคูณของ ค่าเบี่ยงเบน " ต่อ ...
Andy W

1
ตอนนี้ค่าเบี่ยงเบนเฉลี่ยนั้นไม่เหมือนกับหน่วยดั้งเดิมและสถิติผลลัพธ์สำหรับความแปรปรวนร่วมนั้นไม่ได้ขึ้นอยู่กับค่าเฉลี่ยและความแปรปรวนของคุณลักษณะดั้งเดิม ความแปรปรวนร่วมและในตัวของมันเองจะบอกอะไรคุณโดยไม่ทราบถึงความแปรปรวนของคุณลักษณะดั้งเดิม
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.