ไม่มีความสัมพันธ์กันไม่ได้หมายความว่าไม่มีเวรกรรม?


73

ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงความเป็นเหตุเป็นผล แต่การขาดความสัมพันธ์นั้นหมายถึงการขาดความเป็นเหตุเป็นผล?


46
เพื่ออ้างอิง Andrew Gelman "ความสัมพันธ์ไม่ได้บ่งบอกถึงความสัมพันธ์"
Mike Hunter

9
ไม่ได้ A สามารถเป็นสาเหตุของ B ได้ แต่จะส่งผลกระทบกับมันแบบไม่เชิงเส้นเท่านั้น
Neil G

3
"สหสัมพันธ์มีความสัมพันธ์กับสาเหตุ (ไม่มากนัก)"
Adrian

7
โปรดดูที่หน้านี้สำหรับเนื้อหาที่เกี่ยวข้อง หากเวรกรรมไม่ได้หมายถึงสหสัมพันธ์ดังนั้นความสัมพันธ์ใด ๆ ก็ไม่ได้หมายความว่าไม่มีเวรกรรม
EdM

4
ในขณะที่เป็นการเริ่มต้นที่ดีในการตั้งค่าสถานะความสัมพันธ์นั้นไม่ได้บ่งบอกถึงสาเหตุและจากนั้นหารือรายละเอียดฉันคิดมานานแล้วว่าทำไมความสัมพันธ์แบบเดี่ยว ฉันวางมันลงเพื่อความกลมกลืนและความคิดที่น่าดึงดูดใจสำหรับครู (ฉันด้วย) ที่นักเรียนที่มีความพยายามบางอย่างสามารถจดจำสโลแกนและใช้มันในความคิดของพวกเขา แต่ความจริงก็คือไม่มากในสถิติที่แสดงถึงสาเหตุ มิฉะนั้นแล้วคำเตือนนี้มักจะมาในบทที่เกี่ยวข้องหรือบรรยายความสัมพันธ์ แต่มันเป็นทุกที่
Nick Cox

คำตอบ:


76

การขาดความสัมพันธ์หมายความว่าไม่มีเหตุอะไร?

ไม่ระบบควบคุมใด ๆ เป็นตัวอย่าง

หากปราศจากการควบคุมความสัมพันธ์เชิงสาเหตุเป็นไปไม่ได้ชัดเจน แต่การควบคุมที่ประสบความสำเร็จหมายถึงการพูดอย่างคร่าว ๆ ว่าปริมาณบางอย่างนั้นคงที่ซึ่งหมายความว่าจะไม่มีความสัมพันธ์กับสิ่งใดรวมถึงสิ่งต่าง ๆ ที่ทำให้มันคงที่

ดังนั้นในสถานการณ์นี้การสรุปว่าไม่มีความสัมพันธ์เชิงสาเหตุจากการขาดสหสัมพันธ์จะเป็นความผิดพลาด

นี่เป็นตัวอย่างที่ค่อนข้างเฉพาะ


เป็นวิธีที่ง่ายที่จะคิดเกี่ยวกับมัน
Repmat

+1 น่าสนใจ แต่ก็ดูเหมือนว่าจะบ่งบอกถึงสาเหตุที่อาจจะนำเสนอในขณะที่ความสัมพันธ์ของใด ๆชนิดจะขาด ไม่เป็นความจริงเลย หากเหตุการณ์ทำให้เกิดเหตุการณ์อื่นจะมี"ชนิดของความสัมพันธ์ในปัจจุบัน, tht _constantที่คุณกล่าวถึงจะอยู่ในรูปแบบของความสัมพันธ์ที่ไม่เชิงเส้น
Aksakal

1
+1 Bra vo! เมื่อฉันเห็นชื่อคำถามในแถบด้านข้างฉันทุกคน "สิ่งนี้ต้องการคำตอบจากมุมมองของระบบ" คุณตอกมัน
Alexis

ถ้าหากไม่มีความสัมพันธ์กันจะเป็นการลบล้างเวรกรรมที่เหลืออยู่จะถูกนำไปใช้เพื่อระบุว่า
ttnphns

1
ไม่แน่ใจว่าฉันเข้าใจคำถามของ @ttnphns แต่ฉันคิดว่าคำตอบคือ: ถ้าคุณตะครุบสายเบรค (หรือถอดคันเร่งคันเร่ง) จากนั้นเนินเขาจะเริ่มแสดงผลกระทบเชิงสาเหตุต่อความเร็วของรถ
conjugateprior

30

ฉบับที่ส่วนใหญ่เป็นเพราะโดยความสัมพันธ์คุณน่าจะหมายถึงความสัมพันธ์เชิงเส้น สองตัวแปรสามารถมีความสัมพันธ์nonlinearlyและอาจแสดงไม่มีความสัมพันธ์เชิงเส้น มันง่ายที่จะสร้างตัวอย่างเช่นนั้น แต่ฉันจะให้ตัวอย่างที่ใกล้กับคำถามของคุณ (แคบลง)

ลองดูที่ตัวแปรสุ่มและไม่ใช่สุ่มฟังก์ชันกับที่เราสร้างตัวแปรสุ่ม(x) หลังมีสาเหตุมาจากตัวแปรเดิมอย่างชัดเจนไม่ใช่แค่ความสัมพันธ์ มาวาดพล็อตกระจาย:f ( x ) = x 2 y = f ( x )xf(x)=x2y=f(x)

ป้อนคำอธิบายรูปภาพที่นี่

รูปภาพที่มีความสัมพันธ์แบบไม่เชิงเส้นที่ชัดเจนและดี แต่ในกรณีนี้ก็เป็นสาเหตุโดยตรงเช่นกัน อย่างไรก็ตามสัมประสิทธิ์สหสัมพันธ์เชิงเส้นนั้นไม่มีนัยสำคัญกล่าวคือไม่มีความสัมพันธ์เชิงเส้นแม้จะมีความสัมพันธ์เชิงเส้นที่ไม่เชิงเส้นอย่างชัดเจนและแม้แต่เวรกรรม:

>> x=randn(100,1);
>> y=x.^2;
>> scatter(x,y)
>> [rho,pval]=corr(x,y)

rho =

    0.0140


pval =

    0.8904

UPDATE: @Kodiologist ถูกต้องในความคิดเห็น มันสามารถแสดงทางคณิตศาสตร์ว่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นสำหรับตัวแปรทั้งสองนี้เป็นศูนย์แน่นอน ในตัวอย่างของฉันคือตัวแปรปกติมาตรฐานดังนั้นเราจึงมีสิ่งต่อไปนี้: ดังนั้น ความแปรปรวนร่วม (และต่อมาสหสัมพันธ์) เป็นศูนย์: x

E[x]=0
E[x2]=1
E[xx2]=E[x3]=0
Cov[x,x2]=E[xx2]E[x]E[x2]=0

เราจะได้รับผลเดียวกันสำหรับการกระจายสมมาตรใด ๆ เช่นชุด[-1,1]U[1,1]


8
ไม่สำคัญไม่ได้หมายความถึงความจริงของสมมติฐานว่าง สิ่งที่สำคัญในตัวอย่างของคุณคือค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรคือ 0
ประสาทวิทยา

1
ทำไมคุณถึงเชื่อว่า OP หมายถึงสหสัมพันธ์เชิงเส้น
user253751

@immibis เนื่องจากสาเหตุต้องส่งผลให้เกิดความสัมพันธ์ไม่เชิงเส้นบางชนิด
Aksakal

ทำไมความสัมพันธ์เป็นศูนย์? ความแปรปรวนร่วมคือและโดยทั่วไปสำหรับตัวแปรสุ่มแล้ว .. มันถือสำหรับมาตรฐานปกติแม้ว่าE[X3]E[X2]E[X]XE[X3]E[X2]E[X]X
Ant

@ และฉันใช้มาตรฐานปกติสำหรับในตัวอย่าง MATLAB ฉันอัปเดตโพสต์ของฉันเพื่อให้ชัดเจน ขอบคุณที่ชี้นำ x
Aksakal

18

ไม่ โดยเฉพาะอย่างยิ่งตัวแปรสุ่มสามารถขึ้นอยู่กับ แต่ไม่เกี่ยวข้องกัน

นี่คือตัวอย่าง สมมติว่าฉันมีเครื่องที่รับอินพุตเดี่ยวและสร้างตัวเลขสุ่มซึ่งเท่ากับหรือด้วยความน่าจะเป็นที่เท่ากัน เห็นได้ชัดว่าเป็นสาเหตุYตอนนี้ให้เป็นตัวแปรสุ่มกระจายอย่างสม่ำเสมอบนและเลือกกับ , การกระตุ้นให้เกิดการกระจายร่วมกันY) และขึ้นอยู่กับตั้งแต่x[1,1]YxxxYX[1,1]Yx=X(X,Y)XY

P(X<12)P(|Y|<12)=1412=180=P(X<12,|Y|<12).

อย่างไรก็ตามความสัมพันธ์ของและคือ 0 เพราะYXY

Corr(X,Y)=Cov(X,Y)σXσY=E[XY]E[X]E[Y]σXσY=000σXσY=0.

1
จริงๆแล้วนี่เป็นตัวอย่างที่ไม่ดีในความคิดของฉัน X ไม่ได้ทำให้ Y. ตัวแปรไบนารีที่ไม่มีโมเดล PresenceOfX เป็นสาเหตุที่แท้จริงที่มีความสัมพันธ์ 1 สิ่งที่คุณพิสูจน์ได้คือค่า X ไม่ส่งผลต่อ Y
user2088176

6
ผมรู้สึกที่สูญเสียสำหรับวิธีที่คุณอาจรู้สึกว่าทางเลือกของไม่ก่อให้เกิดYบางทีคุณควรระบุสิ่งที่คุณหมายถึงโดย "สาเหตุ" xY
Kodiologist

5
@ user2088176 นี่เป็นหลักฐานที่รวดเร็วที่ทางเลือกของทำให้เกิดYลองใช้รูปแบบ counterfactual ของสาเหตุที่คือดัชนีเป็นชุดของการกระจายไปได้สำหรับYถ้าดังนั้นคือหรือด้วยความน่าจะเป็นที่เท่ากัน ถ้าดังนั้นคือหรือด้วยความน่าจะเป็นที่เท่ากัน เนื่องจากความแตกต่างของความแตกต่างโดยค่าของบ่งบอกถึงการแจกแจงที่แตกต่างกันอย่างชัดเจนสำหรับการเลือกสาเหตุxYxYx=12Y1212x=34Y3434xYxYY
Kodiologist

1
ตัวอย่างนี้อาจจะง่าย (และยังคงทำงาน) ถ้าเรา จำกัดไป[0,1]x[0,1]
JiK

3
สิ่งที่เกี่ยวกับตัวอย่างง่ายๆและมาตรฐาน:และ 2 พวกเขาจะไม่มีความ แต่ -distributedเป็นอย่างดีขึ้นอยู่กับXXN(0,1)X2χ2(1)X2X
Therkel

14

บางทีการมองจากมุมมองการคำนวณอาจช่วยได้

เป็นตัวอย่างที่เป็นรูปธรรมนำตัวสร้างตัวเลขเทียมเทียม

มีความสัมพันธ์เชิงสาเหตุระหว่างเมล็ดที่คุณตั้งค่าและเอาท์พุทจากเครื่องกำเนิดหรือไม่?kth

มีความสัมพันธ์ที่วัดได้หรือไม่?


7

คำตอบที่ดีกว่าสำหรับคำถามคือความสัมพันธ์คือความสัมพันธ์ทางสถิติคณิตศาสตร์และ / หรือทางกายภาพในขณะที่ความสัมพันธ์เชิงสาเหตุเป็นความสัมพันธ์เชิงอภิปรัชญา คุณไม่สามารถรับจากความสัมพันธ์ (หรือไม่ใช่ความสัมพันธ์) อย่างเป็นเหตุเป็นผลได้โดยไม่มีชุดสมมติฐาน (ขนาดใหญ่) ที่เชื่อมโยงอภิปรัชญากับฟิสิกส์ (ตัวอย่างหนึ่งคือสิ่งที่คนสองคนอาจตกลงกันว่าเป็น "ผู้สังเกตการณ์ที่มีเหตุผล" คือระดับใหญ่โดยพลการและอาจคลุมเครือ) ถ้า A จ่าย B เพื่อทำ C ซึ่งผลลัพธ์เป็น D สาเหตุของ D คืออะไร ไม่มีเหตุผลที่สมเหตุสมผลในการเลือก C หรือ B หรือ A (หรือกิจกรรมใด ๆ ของ A) ทฤษฎีการควบคุมเกี่ยวข้องกับระบบในอาณาจักรที่พวกเขาอยู่ภายใต้การควบคุม วิธีหนึ่งในการรับตัวแปรตามภายใต้การควบคุมคือการลดการตอบสนองของตัวแปรนั้นให้อยู่ในช่วงที่เป็นไปได้ของการเปลี่ยนแปลง (ควบคุม) ของตัวแปรอิสระต่อเสียงรบกวนทางสถิติ ตัวอย่างเช่นเรารู้ว่าความดันอากาศมีความสัมพันธ์กับสุขภาพ (เพียงลองหายใจสุญญากาศ) แต่ถ้าเราควบคุมความดันอากาศเป็น 1 +/- 0.001 atm ความแปรปรวนของความดันอากาศจะมีผลต่อสุขภาพอย่างไร


ความแตกต่างที่คุณตามมาคือ 'การสังเกตในตัวอย่าง' (สหสัมพันธ์) เทียบกับการพึ่งพาซึ่งมีอยู่หรือไม่ว่ามันจะถูกสังเกตในตัวอย่าง (ฟิสิกส์) ไม่มีบทบาทสำหรับอภิปรัชญาในคำอธิบายนี้ (แม้ว่าบางอย่างสำหรับการสันนิษฐานทางกายภาพ) สปริงมีข้อ จำกัด ที่ยืดหยุ่นไม่ว่าจะเข้าถึงได้หรือไม่ก็ตาม หรือในตัวอย่างที่อบอุ่นมากขึ้น: ก้อนน้ำตาลละลายได้ - แนวคิดเชิงสาเหตุที่ชัดเจนบอกเป็นนัย ๆ ว่าถ้าคุณทิ้งมันลงในชาจะทำให้ละลาย แต่คุณสมบัติเชิงสาเหตุนี้ล้วนเกิดจากโครงสร้างทางกายภาพ ก้อนน้ำตาลจะละลายได้แม้ว่าเราจะไม่เคยคิดที่จะละลายเลย
conjugateprior

1
แน่นอนว่าคุณถูกต้องแล้วหากไม่มีการสันนิษฐานสาเหตุในการโต้เถียงคุณจะไม่ได้ข้อสรุปเชิงสาเหตุ แต่ไม่มีอะไรเลื่อนลอยเกี่ยวกับเรื่องนั้นจริงๆ!
conjugateprior

fwiw ทฤษฎี counterfactual ของเวรกรรม (เช่น Pearl หรือ Woodward) ได้รับการออกแบบมาเพื่อให้ความรู้สึกของ "ถ้า A จ่าย B เพื่อทำ C ซึ่งผลใน D, สาเหตุของ D คืออะไร? มีเหตุผลที่ไม่มีเหตุผลที่จะเลือก C หรือ B หรือ A" . เพียงความคิดแบบเก่าและความคิดที่ไม่ช่วยเหลือทฤษฎีเหล่านี้นำไปส่วนที่เหลือคือการที่เราสามารถทำให้ Sene ความคิดที่ว่ามีสาเหตุของบางสิ่งบางอย่าง แน่นอนไม่มี
conjugateprior

5

ใช่ตรงกันข้ามกับคำตอบก่อนหน้า ฉันจะใช้คำถามเป็นเทคนิคโดยเฉพาะความหมายของ "ความสัมพันธ์" บางทีฉันอาจใช้มันกว้างเกินไป แต่เห็นกระสุนนัดที่สองของฉัน ฉันหวังว่ามันจะได้รับการพิจารณาที่เหมาะสมเพื่อหารือเกี่ยวกับคำตอบอื่น ๆ ที่นี่เพราะพวกเขาส่องสว่างส่วนต่าง ๆ ของคำถาม ฉันวาดตามวิธีการของ Pearl เพื่อหาสาเหตุและโดยเฉพาะอย่างยิ่งสิ่งที่ฉันทำในบทความบางเรื่องกับ Kevin Korb วู้ดเวิร์ดอาจมีบัญชีที่ไม่ใช่เทคนิคที่ชัดเจนที่สุด

  • @conjugateprior พูดว่า "ระบบควบคุมใด ๆ ที่เป็นตัวอย่าง" ใช่สำหรับข้ออ้างที่แข็งแกร่งกว่าว่าการไม่มีสหสัมพันธ์ในการทดสอบของคุณนั้นไม่ได้เป็นสาเหตุ ฉันจะสมมติว่าคำถามทั่วไปมากกว่า แน่นอนว่าการทดลองหนึ่งอาจล้มเหลวในการควบคุมสาเหตุกำบังหรือควบคุมอย่างไม่เหมาะสมสำหรับผลกระทบทั่วไปและซ่อนความสัมพันธ์ แต่ถ้าเป็นสาเหตุที่ทำให้นี้มีจะมีการทดสอบการควบคุมที่มีความสัมพันธ์ที่ถูกเปิดเผย คำจำกัดความหรือเรื่องราวเกี่ยวกับสาเหตุเกือบทั้งหมดถือว่าเป็นความแตกต่างที่สร้างความแตกต่าง ดังนั้นจึงไม่มีความสัมพันธ์ใด ๆ หากมีการเชื่อมโยงโดยตรงในเครือข่ายแบบเบย์สาเหตุมันไม่ได้หมายความว่าy x yxyxyxมักจะทำให้ความแตกต่างกับเท่านั้นที่มีบางการทดลองการแก้ไขสาเหตุอื่น ๆ ทั้งหมดของที่ wiggling Wiggles Yyyxy

  • @aksakal มีตัวอย่างที่ดีว่าเหตุใดการทำให้เกิดเชิงเส้นไม่เพียงพอ เห็นด้วย แต่ฉันต้องการที่จะกว้างและไม่ใช่ทางเทคนิค หากก็ไม่สมบูรณ์ที่จะบอกลูกค้าว่าเป็น uncorrelated กับxดังนั้นผมจะใช้ความสัมพันธ์ในวงกว้างมากจะหมายถึงความแตกต่างในที่เกี่ยวข้องได้อย่างน่าเชื่อถือมีความแตกต่างในปีมันสามารถเป็นแบบไม่เชิงเส้นหรือไม่เป็นพารามิเตอร์ตามที่คุณต้องการ เอฟเฟกต์ของเกณฑ์ใช้ได้ดี (สร้างความแตกต่างให้กับแต่เฉพาะในช่วงที่ จำกัด หรือโดยการมีขนาดใหญ่หรือเล็กกว่าค่าเฉพาะเช่นแรงดันในวงจรดิจิตอล)y=x2yxxyxy

  • @Kodiologist สร้างตัวอย่างโดยที่ดังนั้นแต่ไม่มีความสัมพันธ์เชิงเส้น แต่เห็นได้ชัดว่ามีความสัมพันธ์ที่ค้นพบได้ดังนั้นจึงมีความสัมพันธ์กันในวงกว้าง| y | = | x |y=Unif(x,x)|y|=|x|

  • @Szabolcs ใช้ตัวสร้างตัวเลขสุ่มเพื่อแสดงเอาต์พุตสตรีมที่สร้างขึ้นเพื่อให้ไม่มีความเกี่ยวข้อง เช่นเดียวกับตัวเลขของสตรีมจะปรากฏแบบสุ่ม แต่ไม่แน่นอน ฉันยอมรับว่าคุณไม่น่าจะพบความสัมพันธ์หากให้ข้อมูลเท่านั้น แต่มีอยู่π

  • @Li Zhi ตั้งข้อสังเกตว่าคุณไม่สามารถข้ามเหตุผลจากความสัมพันธ์ไปยังสาเหตุ ใช่ไม่มีสาเหตุไม่มีสาเหตุ แต่คำถามเริ่มต้นจากสาเหตุ: มันหมายถึงความสัมพันธ์? ในตัวอย่างความดันอากาศเรามีผลกระทบเกณฑ์ มีช่วงที่ความดันอากาศไม่เกี่ยวข้องกับสุขภาพ แน่นอนว่ามันไม่มีผลกระทบต่อสุขภาพ แต่มีช่วงที่มันจะเป็น นั่นก็เพียงพอแล้ว แต่น่าจะดีกว่าที่จะทราบช่วงที่มีและไม่มีผลกระทบ ถ้าแล้วก็มีความสัมพันธ์กันตลอดห่วงโซ่เพราะมีสาเหตุ การสังเกตซ้ำ (หรือการทดลอง) สามารถแสดงว่าไม่ได้ทำให้เกิดโดยตรงA DABCDAD แต่ความสัมพันธ์มีเพราะมีเรื่องราวสาเหตุ

ฉันไม่ทราบว่าสิ่งที่ @ user2088176 มีอยู่ในใจ แต่ฉันคิดว่าถ้าเราใช้คำถามโดยทั่วไปแล้วคำตอบคือใช่ อย่างน้อยฉันก็คิดว่านั่นเป็นคำตอบที่จำเป็นสำหรับวรรณกรรมการค้นพบสาเหตุและบัญชีการแทรกแซงของสาเหตุ สาเหตุคือความแตกต่างที่สร้างความแตกต่าง และความแตกต่างนั้นจะถูกเปิดเผยในการทดลองบางอย่างว่าเป็นความสัมพันธ์แบบถาวร


1
ฉันหวังว่าจะเข้าถึงสิ่งนี้จากมุมมองที่ง่ายขึ้นและไม่ใช่ด้านเทคนิคตามที่คุณมี "สาเหตุ" หมายถึงอะไร สันนิษฐานว่าเกี่ยวข้องกับการเปลี่ยนแปลงในสิ่งที่นำไปสู่การเปลี่ยนแปลงอย่างอื่น ฉันไม่สามารถคาดเดาสาเหตุได้หากไม่มีความสัมพันธ์บางอย่าง
Behacad

1
@Behacad ฉันคิดว่าความแตกต่างระหว่างความสัมพันธ์บางอย่าง (เรียงลำดับของสิ่งที่คุณสามารถสังเกตเห็น) และการพึ่งพาอาศัยบางอย่าง (ซึ่งอาจไม่เคยถูกเรียก) มีการอ้างอิงที่ไม่ได้รับการแสดงผล แต่ไม่มีสหสัมพันธ์ที่ไม่ได้รับการยืนยัน นี่คือสาเหตุที่สาเหตุมีองค์ประกอบ counterfactual เพื่อความหมายของมันในขณะที่ความสัมพันธ์ไม่ได้
conjugateprior
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.