หาก A และ B สัมพันธ์กับ C เหตุใด A และ B จึงไม่สัมพันธ์กัน?


62

ฉันรู้ด้วยสังเกตุว่าเป็นอย่างนั้น ฉันเพิ่งพัฒนาแบบจำลองที่ใช้กับปริศนานี้ ฉันยังสงสัยด้วยว่าไม่จำเป็นต้องตอบใช่หรือไม่ใช่ ฉันหมายความว่าถ้าทั้ง A และ B มีความสัมพันธ์กับ C นี่อาจมีความหมายบางอย่างเกี่ยวกับความสัมพันธ์ระหว่าง A และ B แต่ความหมายนี้อาจอ่อนแอ มันอาจเป็นเพียงทิศทางของการเข้าสู่ระบบและไม่มีอะไรอื่น

นี่คือสิ่งที่ฉันหมายถึง ... สมมุติว่า A และ B ทั้งสองมีความสัมพันธ์กับ C 0.5 โดยที่ความสัมพันธ์ระหว่าง A และ B อาจเป็น 1.0 ฉันคิดว่ามันอาจจะ 0.5 หรือต่ำกว่า แต่ฉันคิดว่ามันไม่น่าเป็นไปได้ที่จะเป็นลบ คุณเห็นด้วยไหม

นอกจากนี้ยังมีนัยถ้าคุณกำลังพิจารณาค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันหรือแทนที่จะเป็นค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน (อันดับ)? การสังเกตเชิงประจักษ์ล่าสุดของฉันเกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน


38
ตัวอย่างคือการใช้ ,และ Y เราสามารถใช้และจะเป็นอิสระ แต่ทั้งและมีความสัมพันธ์ (บวกเพียร์สัน) กับCB = Y C = X + Y X Y A B CA=XB=YC=X+YXYABC

1
ขอบคุณนั่นเป็นความคิดเห็นที่ดีจริงๆ สั้น แต่มันรวบรวมสาระสำคัญของเหตุผลว่าทำไมมันถึงเป็นเช่นนั้น
Sympa

คำตอบ:


53

เนื่องจากสหสัมพันธ์เป็นสมบัติทางคณิตศาสตร์ของการแจกแจงหลายตัวแปรความเข้าใจบางอย่างสามารถมีได้อย่างหมดจดผ่านการคำนวณโดยไม่คำนึงถึงการกำเนิดทางสถิติของการแจกแจงเหล่านั้น

สำหรับความสัมพันธ์เพียร์สันพิจารณาตัวแปร multinormal , , Zสิ่งเหล่านี้มีประโยชน์ในการทำงานกับเพราะเมทริกซ์แน่นอนที่ไม่เป็นลบใด ๆ ที่จริงแล้วคือเมทริกซ์ความแปรปรวนร่วมของการแจกแจงแบบพหุคูณ ถ้าเรายึดเมทริกซ์ด้วยบนเส้นทแยงมุมค่าความแปรปรวนร่วมนอกของเมทริกซ์ความแปรปรวนร่วมจะเป็นสหสัมพันธ์ของพวกมัน เขียนความสัมพันธ์ของและเป็น , ความสัมพันธ์ของและเป็นและความสัมพันธ์ของและเป็นY Z 1 X Y ρ Y Z τ X Z σXYZ1XYρYZτXZσเราคำนวณสิ่งนั้น

  • 1+2ρστ(ρ2+σ2+τ2)0 (เพราะนี่คือตัวกำหนดของเมทริกซ์สหสัมพันธ์และไม่สามารถลบได้)

  • เมื่อนี้หมายความว่า1 พูดอีกอย่างคือ: เมื่อทั้งและมีขนาดใหญ่และจะต้องมีความสัมพันธ์ที่ไม่ใช่ศูนย์ρ 2 + τ 21 ρ τ X Zσ=0ρ2+τ21ρτXZ

  • ถ้าว่าเป็นค่าที่ไม่เป็นลบของ (ระหว่างถึงแน่นอน) เป็นไปได้σ 0 1ρ2=τ2=1/2σ01

  • เมื่ออนุญาตให้ลบค่าของได้ ตัวอย่างเช่นเมื่อ ,สามารถเป็นที่ใดก็ได้ระหว่างและ1σ ρ = τ = 1 / 2 σ - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

การพิจารณาเหล่านี้บ่งบอกว่ามีข้อ จำกัด บางอย่างเกี่ยวกับสหสัมพันธ์ซึ่งกันและกัน ข้อ จำกัด (ซึ่งขึ้นอยู่กับความไม่แน่นอนเชิงลบของเมทริกซ์สหสัมพันธ์, ไม่ใช่การแจกแจงที่แท้จริงของตัวแปร) สามารถทำให้รัดกุมขึ้นอยู่กับสมมติฐานเกี่ยวกับการแจกแจง univariate ตัวอย่างเช่นเป็นเรื่องง่ายที่จะเห็น (และพิสูจน์) ว่าเมื่อการแจกแจงของและไม่ได้อยู่ในครอบครัวระดับตำแหน่งเดียวกันความสัมพันธ์ของพวกเขาจะต้องน้อยกว่าในขนาดอย่างเคร่งครัด (หลักฐาน: ความสัมพันธ์ของหมายถึงและสัมพันธ์กันเป็นเส้นตรง)Y 1 ± 1 X YXY1±1XY

เท่าที่Spearman สัมพันธ์ยศไปพิจารณาสามข้อสังเกต trivariate ,และของZ) ความสัมพันธ์อันดับร่วมกันของพวกเขาเป็น ,และ-1/2ดังนั้นแม้แต่เครื่องหมายของสหสัมพันธ์อันดับของและก็สามารถย้อนกลับของสัญญาณของสหสัมพันธ์ของและและและได้( 2 , 3 , 1 ) ( 3 , 2 , 3 ) ( X , Y , Z ) 1 / 2 1 / 2 - 1 / 2(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1/21/21/2Z X Y X ZYZXYXZ


whuber "ตัวแปรหลายตัวแปร" คืออะไร?
Sympa


ตามปกติแล้วคำอธิบายอย่างละเอียดที่สุดคุณจะได้รับเครื่องหมายถูก "คำตอบที่ดีที่สุด"
Sympa

@Gaetan Lion คุณใจดีมาก ฉันสนุกกับการอ่านคำตอบทั้งหมดของคำถามนี้ (และทำเครื่องหมายว่าหมด)
whuber

88

ตอนนี้ฉันกำลังออกทริปตกปลา มีความสัมพันธ์ระหว่างช่วงเวลาของวันที่ฉันจับปลากับปริมาณของปลาที่ฉันจับได้ นอกจากนี้ยังมีความสัมพันธ์ระหว่างขนาดของเหยื่อที่ฉันใช้และปริมาณปลาที่ฉันจับ ไม่มีความสัมพันธ์กันระหว่างขนาดของเหยื่อและเวลาของวัน


โหระพาฉันรักมัน! +1 สำหรับคำอธิบายภาษาอังกฤษธรรมดา
Sympa

ดีที่สุด ตอบ. บน stats.stackexchange เคย
Chris Beeley

1
สิ่งนี้อธิบายกรณีที่ความสัมพันธ์เริ่มต้นต่ำ แต่ไม่อธิบายถึงกรณีที่ความสัมพันธ์สูงขึ้น หากมีความสัมพันธ์ 80% กับเวลาของวันและมีความสัมพันธ์ 80% กับขนาดของเหยื่อฉันสามารถรับประกันได้ว่าคุณกำลังใช้เหยื่อที่ใหญ่กว่าในระหว่างวัน!
user35581

2
@ user35581 ไม่คุณไม่สามารถ - คุณหายไปทั้งจุด ทุก ๆ ชั่วโมงเขาสามารถตกปลาครั้งเดียวกับเหยื่อตัวเล็กและอีกครั้งกับเหยื่อตัวใหญ่ เขายังสามารถจับปลาได้มากขึ้นในบางช่วงของวัน (ความสัมพันธ์ 80%) และจับปลาที่มีเหยื่อมากขึ้น (ความสัมพันธ์ 80%) และมีความสัมพันธ์ 0 ระหว่างขนาดของเหยื่อที่เขาใช้และเวลาของวัน มันอาจจะเป็นความสัมพันธ์เชิงลบถ้าเขาใช้เหยื่อขนาดใหญ่บ่อยขึ้นในช่วงนอกเวลาของวันเพื่อชดเชยเวลาที่เลวร้ายของวัน ดังนั้นคุณไม่รู้อะไรเลยเกี่ยวกับความสัมพันธ์ระหว่างเวลาของวันกับขนาดของเหยื่อ
rysqui

2
@rysqui ขออภัยความคิดเห็นของฉันไม่ดี แต่จุดที่ฉันพยายามทำก็คือ: เมื่อความสัมพันธ์ระหว่างคุณลักษณะและเป้าหมายสูงขึ้นมากคุณลักษณะของคุณจะต้องมีความสัมพันธ์เช่นกัน ดังนั้นหากคุณมีความสัมพันธ์ที่สมบูรณ์แบบระหว่างเวลาของวันและขนาดของการจับและความสัมพันธ์ที่สมบูรณ์แบบระหว่างขนาดของเหยื่อและขนาดของการจับแล้วคุณจะต้องมีความสัมพันธ์ที่สมบูรณ์แบบระหว่างขนาดของเหยื่อและเวลาของวัน "คุณกำลังใช้เหยื่อที่ใหญ่กว่าในระหว่างวัน" โปรดทราบว่านี่เป็นกรณีขอบ!
user35581

20

ความสัมพันธ์คือโคไซน์ของมุมระหว่างสองเวกเตอร์ ในสถานการณ์ที่อธิบายไว้ (A, B, C) เป็นการสังเกตสามครั้งทำ n ครั้งแต่ละการสังเกตเป็นจำนวนจริง ความสัมพันธ์ระหว่าง A และ B คือโคไซน์ของมุมระหว่างและตามที่วัดในปริภูมิแบบยุคลิดแบบยู - มิติ ดังนั้นสถานการณ์ของเราลดลงเมื่อพิจารณาเวกเตอร์ 3 ตัว ,และในปริภูมิมิติ เรามีเวกเตอร์ 3 คู่ดังนั้น 3 มุม หากมุมทั้งสองมีขนาดเล็ก (สหสัมพันธ์สูง) มุมที่สามก็จะเล็กเช่นกัน แต่การที่จะบอกว่า "มีความสัมพันธ์" นั้นไม่มีข้อ จำกัด มากนัก: หมายความว่ามุมอยู่ระหว่าง 0 ถึงVA=AE(A)VB=BE(B)VAVBVCπ/2. โดยทั่วไปสิ่งนี้ไม่ให้ข้อ จำกัด ใด ๆ ในมุมที่สาม วางไว้ในอีกทางหนึ่งเริ่มด้วยมุมใด ๆ ที่น้อยกว่าระหว่างและ (ความสัมพันธ์ใด ๆ ยกเว้น -1) ให้แบ่งครึ่งมุมระหว่างและV_Bจากนั้น C จะสัมพันธ์กับทั้ง A และ BπVAVBVCVAVB


ความสัมพันธ์ +1 ในแง่ของมุมระหว่างเวกเตอร์หลายมิตินั้นง่ายสำหรับฉัน
Petrus Theron

2
สำหรับการอ้างอิงของผู้อ่านในอนาคตฉันขยายคำตอบทางเรขาคณิตนี้ (มีรูปภาพ!) ในหัวข้อต่อไปนี้: talkstats.com/showthread.php/…
Jake Westfall

18

เป็นส่วนเสริมของคำตอบของ whuber: สูตรที่นำเสนอ

1+2ρστ(ρ2+σ2+τ2)00

สามารถเปลี่ยนเป็นความไม่เท่าเทียมกันดังต่อไปนี้ (Olkin, 1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

การแสดงกราฟิกของขีด จำกัด บนและล่างของดูเหมือนว่า:ρ

ป้อนคำอธิบายรูปภาพที่นี่


Olkin, I. (1981) ข้อ จำกัด ช่วงสำหรับเมทริกซ์สหสัมพันธ์ของโมเมนต์ผลิตภัณฑ์ Psychometrika, 46, 469-472 ดอย: 10.1007 / BF02293804


ใครสามารถบอกฉันได้ว่าตัวอย่างเหล่านี้บางส่วนเป็นการกระจายแบบหลายตัวแปรที่มีการกระจายระยะขอบเฉพาะซึ่ง จำกัด ช่วงของความสัมพันธ์ที่เป็นไปได้ระหว่างส่วนประกอบ นั่นหมายความว่าสหสัมพันธ์ไม่สามารถใช้ช่วงเต็มรูปแบบจาก -1 ถึง 1 ฉันจำได้ว่า Frechet เป็นบุคคลอย่างน้อยหนึ่งคนที่พัฒนาสิ่งนี้ในปี 1950 ขณะที่ฉันค้นหาวรรณกรรมในวันนี้ฉันคิดว่าตอนนี้พวกเขาถูกเรียกว่า
Michael Chernick

14

ฉันคิดว่าดีกว่าที่จะถามว่า "ทำไมพวกเขาควรมีความสัมพันธ์กัน" หรืออาจจะ "ทำไมจึงควรมีความสัมพันธ์เฉพาะใด ๆ ?"

รหัส R ต่อไปนี้แสดงกรณีที่ x1 และ x2 มีความสัมพันธ์กับ Y แต่มีความสัมพันธ์ 0 ซึ่งกันและกัน

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

ความสัมพันธ์กับ Y สามารถทำให้แข็งแกร่งขึ้นได้โดยการลด. 3 เป็น. 1 หรืออะไรก็ตาม


น่าเสียดายที่ฉันไม่ใช่ผู้ใช้ R ดังนั้นรหัสด้านบนมีความหมายกับฉันน้อยกว่าที่คุณมีต่อคุณ
Sympa

2
x1x2y=3x1+2x2yx1x2

14

ฉันจะปล่อยให้การสาธิตทางสถิติแก่ผู้ที่เหมาะสมกว่าสำหรับฉัน ... แต่โดยสังหรณ์กล่าวว่าเหตุการณ์ A สร้างกระบวนการ X ที่มีส่วนช่วยในการสร้างเหตุการณ์ C จากนั้น A จะสัมพันธ์กับ C (ผ่าน X) B ในทางกลับกันสร้าง Y ซึ่งมีรูปร่าง C ดังนั้น A จึงสัมพันธ์กับ C, B สัมพันธ์กับ C แต่ A และ B ไม่มีความสัมพันธ์กัน


1
@Nice ฉันคิดว่าคุณหมายถึง "A และBไม่มีความสัมพันธ์" ในส่วนสุดท้ายของประโยคสุดท้ายของคุณ
suncoolsu

ใช่นิโก้กับการแก้ไข suncoolsu ... นี่เป็นคำอธิบายที่ดีพอสมควร คุณกำลังอธิบายบางส่วนของการวิเคราะห์เส้นทาง
Sympa

ใช่ขอโทษฉันผสมตัวอักษร;)
nico

1

สำหรับผู้ที่ต้องการสัญชาตญาณความสัมพันธ์สามารถถูกมองว่าเป็นโคไซน์ของบางมุม ลองพิจารณาเวกเตอร์สามตัวในแบบ 3 มิติสมมุติว่า A, B และ C ซึ่งแต่ละตัวมีความสัมพันธ์กัน คำถามคือการกำหนดช่วงของมุมที่เป็นไปได้ระหว่าง A และ C เมื่อทราบมุมระหว่าง A และ B รวมถึงมุมระหว่าง B และ C เพื่อให้คุณสามารถเล่นกับเครื่องมือออนไลน์โดยไม่ต้องติดตั้งซอฟต์แวร์ใด ๆ เพียงไปที่หน้าhttp://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

ให้ยกตัวอย่างหนึ่ง:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

สำหรับ x, A และ B จะมีความสัมพันธ์อย่างมีนัยสำคัญในทำนองเดียวกัน A และ C จะมีความสัมพันธ์อย่างมีนัยสำคัญ แต่ความสัมพันธ์ของ B และ C จะไม่สำคัญ

ดังนั้นจึงไม่จำเป็นว่าถ้า A และ B มีความสัมพันธ์และ A และ C นั้นสัมพันธ์กันดังนั้น B และ C ก็สัมพันธ์กันเช่นกัน

หมายเหตุ: เพื่อความเข้าใจอย่างลึกซึ้งโปรดคิดตัวอย่างนี้ในข้อมูลขนาดใหญ่


BCx1x6ABCx1x9

ฉันสบายใจกับคำตอบ Abhishek Anand เพราะท้ายที่สุดแล้วทุกอย่างมีความสัมพันธ์กับทุกอย่างในระดับหนึ่ง และฉันชอบวิธีที่เขาเปรียบเทียบมันในแง่ของนัยสำคัญทางสถิติ เมื่อคุณใช้กรอบงานนั้นมันค่อนข้างชัดเจนว่าถ้า A และ B มีความสัมพันธ์ทางสถิติอย่างมีนัยสำคัญกับ C ทั้ง A หรือ B อาจไม่จำเป็นต้องมีความสัมพันธ์ทางสถิติอย่างมีนัยสำคัญ (โดยใช้กรอบงานจริงของคำถามเดิมของฉัน) ฉันคิดว่าไดอะแกรม vent สามารถสร้างขึ้นเพื่ออธิบายภาพที่ยอดเยี่ยมของแนวคิด
Sympa

@whuber ฉันเห็นด้วยกับคุณ มันเป็นเพียงตัวอย่างเดียวที่อธิบายได้ว่าทำไมมันไม่จำเป็น
Abhishek Anand

ไม่เป็นไร - แต่คุณดูเหมือนจะเข้าใจผิดเกี่ยวกับความสัมพันธ์ระหว่างเวกเตอร์เหล่านี้ ไม่มีข้อความใดที่คุณพูดถึงเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์ของเวกเตอร์เหล่านี้โดยทั่วไปว่าถูกต้อง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.