คำตอบสั้น ๆ : ไม่แข็งแกร่งมาก ความสัมพันธ์เป็นตัวชี้วัดของพึ่งพาเชิงเส้นและเมื่อตัวแปรหนึ่งไม่สามารถเขียนเป็นฟังก์ชันเชิงเส้นของอีกตัวแปรหนึ่ง(และยังคงมีการแจกแจงที่กำหนดไว้) คุณจะไม่มีความสัมพันธ์ที่สมบูรณ์แบบ (บวกหรือลบ) ในความเป็นจริงค่าความสัมพันธ์ที่เป็นไปได้สามารถถูก จำกัด อย่างรุนแรง
ปัญหาคือว่าในขณะที่ประชากรมีความสัมพันธ์เป็นเสมอระหว่างและ1−11ที่สำเร็จช่วงที่แน่นอนหนักขึ้นอยู่กับการกระจายร่อแร่ หลักฐานที่รวดเร็วและการสาธิต:
ช่วงที่เหมาะสมของความสัมพันธ์
ถ้ามีฟังก์ชั่นการกระจายHและฟังก์ชันการแจกแจงขอบFและGมีขอบเขตบนและล่างค่อนข้างดีสำหรับH ,
H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , Y ) ,
เรียกว่าขอบเขตFréchet นี่คือ
H - ( x , y( X, วาย)HFGH
H-( x , y) ≤ H( x , y) ≤ H+( x , y) ,
(พยายามพิสูจน์มันไม่ยากมาก)
H-( x , y)H+( x , y)= สูงสุด( F( x ) + G ( y) - 1 , 0 )= นาที( F( x ) , G ( y) )
ขอบเขตเป็นฟังก์ชันกระจายตัว ให้มีการกระจายแบบสม่ำเสมอ ขอบเขตบนคือฟังก์ชันการกระจายของ( X , Y ) = ( F - ( U ) , G - ( U ) )และขอบเขตล่างคือฟังก์ชันการกระจายของ( F - ( - U ) , G - ( 1 - U ) )ยู( X, วาย) = ( F-( ยู) , G-( ยู) )( F-( - คุณ) , G-( 1 - คุณ) )
ตอนนี้ใช้ตัวแปรนี้กับสูตรสำหรับความแปรปรวนร่วม,
เราจะเห็นว่าเราได้รับสูงสุดและต่ำสุดความสัมพันธ์เมื่อ Hเท่ากับ H +และ H -ตามลำดับกล่าวคือเมื่อ Yเป็น (บวกหรือลบตามลำดับ) ฟังก์ชั่นเดียวของX
Cov( X, วาย) = ∬H( x , y) - F( x ) G ( y) dx dY,
HH+H-YX
ตัวอย่าง
นี่คือตัวอย่างบางส่วน (ที่ไม่มีหลักฐาน):
เมื่อและYจะกระจายตามปกติเราได้รับสูงสุดและต่ำสุดเมื่อ( X , Y )มี bivariate ปกติกระจายปกติที่Yเขียนเป็นฟังก์ชั่นเชิงเส้นของX นั่นคือเราได้รับค่าสูงสุดสำหรับ
Y = μ Y + σ Y X - μ XXY( X, วาย)YX
ที่นี่ขอบเขตคือ (แน่นอน)-1และ1ไม่ว่าความหมายและความแปรปรวนXและYจะมีอะไร
Y= μY+ σYX- μXσX.
- 11XY
เมื่อและYมีการแจกแจงแบบ lognormal ขอบเขตล่างจะไม่สามารถบรรลุได้ดังที่บอกเป็นนัยว่าYสามารถเขียนY = a - b XสำหรับaและbบวกและYไม่สามารถลบได้ มีสูตร (น่าเกลียดเล็กน้อย) สำหรับขอบเขตที่แน่นอน แต่ขอผมใช้กรณีพิเศษ เมื่อXและYมีการแจกแจงแบบล็อกนอร์มัลมาตรฐาน (หมายความว่าเมื่อมีการยกกำลังพวกมันเป็นแบบปกติ) ช่วงที่สามารถบรรลุได้คือ[ - 1 / e , 1 ] ≈XYYY= a - b XaขYXY ] (โดยทั่วไปขอบเขตบนถูก จำกัด เช่นกัน)[ - 1 / e , 1 ] ≈ [ - 0.37 , 1 ]
เมื่อมีการแจกแจงแบบปกติมาตรฐานและYมีการแจกแจงแบบล็อกนอร์มัลมาตรฐานขอบเขตความสัมพันธ์คือ
± 1XY
± 1e - 1----√≈ 0.76
โปรดทราบว่าขอบเขตทั้งหมดมีไว้สำหรับประชากรความสัมพันธ์ของความสัมพันธ์ตัวอย่างสามารถขยายออกไปนอกขอบเขตได้ง่ายโดยเฉพาะอย่างยิ่งสำหรับตัวอย่างขนาดเล็ก (ตัวอย่างรวดเร็ว: ขนาดตัวอย่าง 2)
การประมาณขอบเขตความสัมพันธ์
ที่จริงแล้วมันค่อนข้างง่ายที่จะประมาณค่าขอบเขตบนและล่างของสหสัมพันธ์หากคุณสามารถจำลองจากการแจกแจงที่ขอบ สำหรับตัวอย่างสุดท้ายข้างต้นเราสามารถใช้รหัส R นี้:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
หากเรามีข้อมูลจริงและไม่ทราบถึงการกระจายเล็กน้อยเรายังคงสามารถใช้วิธีการข้างต้นได้ มันไม่ใช่ปัญหาที่ตัวแปรขึ้นอยู่กับตราบเท่าที่คู่การสังเกตนั้นขึ้นอยู่กับ แต่มันช่วยให้มีการสังเกตหลายคู่
การแปลงข้อมูล
YXแจกแจงแบบปกติ bivariate ความสัมพันธ์มีการตีความที่ดี (สแควร์คือความแปรปรวนของตัวแปรหนึ่ง ) นี่ไม่ใช่กรณีที่นี่
สิ่งที่คุณกำลังทำอยู่ที่นี่จริง ๆ คือการสร้างตัวชี้วัดใหม่ของการพึ่งพาซึ่งไม่ขึ้นอยู่กับการแจกแจงที่ขอบ; คือคุณกำลังสร้างเชื่อม -Based วัดของการพึ่งพาอาศัย มีการวัดหลายอย่างเช่นSpearman's ρและKendall's τซึ่งเป็นที่รู้จักมากที่สุด (หากคุณสนใจแนวคิดการพึ่งพาอาศัยกันจริง ๆ มันไม่ใช่ความคิดที่ดีที่จะพิจารณาเป็น copulas)
สรุปแล้ว
ความคิดและคำแนะนำสุดท้าย: เพียงแค่มองความสัมพันธ์มีปัญหาใหญ่หนึ่งอย่าง: มันทำให้คุณหยุดคิด ในทางกลับกันการมองแผนการกระจายมักทำให้คุณเริ่มคิด คำแนะนำหลักของฉันคือการตรวจสอบแผนการกระจายและพยายามจำลองการพึ่งพาอาศัยกันอย่างชัดเจน
ที่กล่าวว่าหากคุณต้องการการวัดที่มีความสัมพันธ์อย่างง่ายฉันจะใช้ Spearman's ρ (และช่วงความมั่นใจและการทดสอบที่เกี่ยวข้อง) ช่วงไม่ จำกัด แต่ระวังการพึ่งพาแบบไม่ใช้โมโนโทน บทความวิกิพีเดียสัมพันธ์มีคู่ของแปลงที่ดีที่แสดงปัญหาที่อาจเกิดขึ้น