สาเหตุที่กำหนดทางคณิตศาสตร์เป็นอย่างไร?


16

คำจำกัดความทางคณิตศาสตร์ของความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรสุ่มสองตัวคืออะไร

ได้รับตัวอย่างจากการจัดจำหน่ายร่วมกันของสองตัวแปรสุ่มและเมื่อเราจะพูดทำให้เกิด ?XYXY

สำหรับบริบทฉันกำลังอ่านบทความนี้เกี่ยวกับการค้นพบสาเหตุ


2
เท่าที่ฉันสามารถเห็นเวรกรรมเป็นแนวคิดทางวิทยาศาสตร์ไม่ใช่คณิตศาสตร์ คุณสามารถแก้ไขเพื่อชี้แจงได้ไหม?
mdewey

2
@dewey ฉันไม่เห็นด้วย เวรกรรมสามารถนำไปจ่ายเป็นทางการได้ ดูเช่นคำตอบของฉัน
Kodiologist

คำตอบ:


9

คำจำกัดความทางคณิตศาสตร์ของความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรสุ่มสองตัวคืออะไร

ศาสตร์เป็นโมเดลเชิงสาเหตุประกอบด้วยการทำงานความสัมพันธ์ระหว่างตัวแปร ตัวอย่างเช่นพิจารณาระบบของสมการโครงสร้างด้านล่าง:

x=fx(ϵx)y=fy(x,ϵy)

นี่หมายความว่าxจะกำหนดค่าของy (ถ้าคุณเข้าไปแทรกแซงxจะเปลี่ยนค่าของy ) แต่ไม่ใช่วิธีอื่น ๆ แบบกราฟิกนี่มักจะแสดงโดยxyซึ่งหมายความว่าxเข้าสู่สมการโครงสร้างของ y ในฐานะที่เป็นภาคผนวกนี้คุณยังสามารถแสดงโมเดลเชิงสาเหตุในแง่ของการกระจายร่วมกันของตัวแปร counterfactual, ซึ่งเป็นทางคณิตศาสตร์เทียบเท่ากับรูปแบบการทำงาน

รับตัวอย่างจากการแจกแจงร่วมของตัวแปรสุ่มสองตัว X และ Y เราจะบอกว่าเมื่อใดที่ X เป็นสาเหตุให้ Y

บางครั้ง (หรือมากที่สุดเท่าที่) คุณไม่ได้มีความรู้เกี่ยวกับรูปร่างของสมการโครงสร้างfx , fyหรือแม้แต่ว่าxyหรือyx x ข้อมูลเดียวที่คุณมีคือการแจกแจงความน่าจะเป็นร่วมp(y,x) (หรือตัวอย่างจากการแจกแจงนี้)

สิ่งนี้นำไปสู่คำถามของคุณ: เมื่อใดที่ฉันสามารถกู้คืนทิศทางของเวรกรรมจากข้อมูลได้? หรืออย่างแม่นยำมากขึ้นเมื่อฉันสามารถกู้คืนได้ว่าxเข้าสู่สมการโครงสร้างของyหรือในทางกลับกันเพียงแค่จากข้อมูล?

แน่นอนโดยไม่ต้องสมมติฐาน untestable พื้นฐานใด ๆเกี่ยวกับโมเดลเชิงสาเหตุที่เป็นไปไม่ได้ ปัญหาคือแบบจำลองเชิงสาเหตุที่แตกต่างกันหลายแบบสามารถนำมาซึ่งการกระจายความน่าจะเป็นร่วมเดียวกันของตัวแปรที่สังเกตได้ ตัวอย่างที่พบบ่อยที่สุดคือระบบเชิงเส้นเชิงสาเหตุที่มีสัญญาณรบกวนแบบเกาส์เซียน

แต่ภายใต้สมมติฐานเชิงสาเหตุบางประการนี่อาจเป็นไปได้ --- และนี่คือสิ่งที่วรรณกรรมการค้นพบเชิงสาเหตุทำงาน หากคุณไม่เคยสัมผัสหัวข้อนี้มาก่อนคุณอาจต้องการเริ่มต้นจากองค์ประกอบการอนุมานเชิงสาเหตุโดย Peters, Janzing และ Scholkopf รวมถึงบทที่ 2 จาก Causalityโดย Judea Pearl เรามีหัวข้อที่นี่ใน CV สำหรับการอ้างอิงเกี่ยวกับการค้นพบสาเหตุแต่เรายังไม่มีการอ้างอิงจำนวนมากในรายการ

ดังนั้นจึงไม่มีคำตอบสำหรับคำถามของคุณเพียงหนึ่งข้อเนื่องจากขึ้นอยู่กับสมมติฐานที่เราทำ กระดาษที่คุณพูดถึงอ้างอิงบางตัวอย่างเช่นสมมติว่ามีโมเดลเชิงเส้นที่มีเสียงรบกวนแบบไม่เสียน กรณีนี้เป็นที่รู้จักกันในนามLINGAN (ย่อมาจากแบบจำลองเชิงเส้นแบบ non-gaussian) นี่คือตัวอย่างในR:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

โปรดสังเกตที่นี่เรามีโมเดลเชิงเส้นตรงพร้อมเสียงที่ไม่ใช่เกาส์ที่x2ทำให้x1และ lingam กู้คืนทิศทางของสาเหตุได้อย่างถูกต้อง อย่างไรก็ตามโปรดสังเกตว่าสิ่งนี้ขึ้นอยู่กับช่วงวิกฤตของสมมติฐาน LINGAM

สำหรับกรณีของกระดาษที่คุณอ้างถึงพวกเขาทำสมมติฐานเฉพาะนี้ (ดู "สมมุติฐาน"):

ถ้าxyความยาวรายละเอียดขั้นต่ำของกลไกการทำแผนที่ X ถึง Y ไม่ขึ้นอยู่กับค่าของ X ในขณะที่ความยาวคำอธิบายน้อยที่สุดของการจับคู่กลไก Y ถึง X ขึ้นอยู่กับค่าของ Y

หมายเหตุนี่เป็นข้อสันนิษฐาน นี่คือสิ่งที่เราจะเรียกว่า "เงื่อนไขการระบุ" ของพวกเขา หลักข้อ จำกัด สมมุติเรียกเก็บกับการกระจายร่วมp(x,y) ) นั่นคือสมมุติว่าถ้าxyมีข้อ จำกัด บางอย่างในข้อมูลและถ้าyxข้อ จำกัด อื่น ๆ ข้อ จำกัด ประเภทนี้ที่มีผลกระทบที่ทดสอบได้ (กำหนดข้อ จำกัด ในp(y,x) ) คือสิ่งที่ช่วยให้เราสามารถกู้คืนทิศทางจากข้อมูลเชิงสังเกตการณ์ได้

ในฐานะที่เป็นคำพูดสุดท้ายผลการค้นพบเชิงสาเหตุยังคงมี จำกัด มากและขึ้นอยู่กับสมมติฐานที่แข็งแกร่งโปรดใช้ความระมัดระวังเมื่อใช้สิ่งเหล่านี้ในบริบทของโลกแห่งความเป็นจริง


1
มีโอกาสที่คุณจะเพิ่มคำตอบให้กับตัวอย่างง่ายๆด้วยข้อมูลปลอมหรือไม่? ตัวอย่างเช่นการอ่านองค์ประกอบของการอนุมานสาเหตุและดูการบรรยายของ Peters บางส่วนและใช้กรอบการถดถอยเพื่อกระตุ้นความต้องการในการทำความเข้าใจปัญหาในรายละเอียด (ฉันไม่ได้สัมผัสงาน ICP ของพวกเขา) ฉันมีความประทับใจ (อาจเข้าใจผิด) ว่าในความพยายามของคุณที่จะย้ายออกจาก RCM คำตอบของคุณจะทำให้เครื่องจักรการสร้างแบบจำลองที่มีตัวตนเกิดขึ้นจริงทั้งหมด
usεr11852พูดว่า Reinstate Monic

1
@ usεr11852ฉันไม่แน่ใจว่าฉันเข้าใจบริบทของคำถามของคุณคุณต้องการตัวอย่างของการค้นพบสาเหตุหรือไม่ มีหลายตัวอย่างในกระดาษที่เจนจัดไว้ให้ นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจสิ่งที่คุณหมายถึงโดย "หลีกเลี่ยง RCM และออกจากเครื่องจักรแบบจำลองที่จับต้องได้จริง" เรามีเครื่องจักรอะไรที่จับต้องได้ในบริบทการค้นพบเชิงสาเหตุที่นี่?
Carlos Cinelli

1
ขอโทษสำหรับความสับสนฉันไม่สนใจตัวอย่างจากเอกสาร ฉันสามารถอ้างอิงเอกสารอื่น ๆ ด้วยตัวเอง (ตัวอย่างเช่น Lopez-Paz et al. CVPR 2017 เกี่ยวกับค่าสัมประสิทธิ์สาเหตุเชิงเส้นประสาท) สิ่งที่ฉันสนใจคือตัวอย่างเชิงตัวเลขอย่างง่ายพร้อมข้อมูลปลอมที่มีคนทำงานใน R (หรือภาษาที่คุณโปรดปราน) และดูว่าคุณหมายถึงอะไร หากคุณยกตัวอย่างเช่น Peters 'et al. หนังสือและพวกเขามีตัวอย่างรหัสขนาดเล็กที่เป็นประโยชน์อย่างมหาศาล (และบางครั้งใช้เพียงlm) เราไม่สามารถทำงานกับชุดข้อมูลเชิงสังเกตการณ์ Tuebingen เพื่อรับแนวคิดการค้นพบสาเหตุ! :)
usεr11852พูดว่า Reinstate Monic

1
@ usεr11852แน่ใจว่ารวมถึงตัวอย่างปลอมเป็นเรื่องเล็กน้อยฉันสามารถรวมหนึ่งโดยใช้องคชาติใน R แต่คุณอยากจะอธิบายสิ่งที่คุณหมายถึงโดย "หลีกเลี่ยง RCM และออกจากเครื่องจักรแบบจำลองที่จับต้องได้จริง"?
Carlos Cinelli

2
@ usεr11852 ok ขอบคุณสำหรับข้อเสนอแนะฉันจะพยายามที่จะรวมรหัสเพิ่มเติมตามความเหมาะสม ในฐานะที่เป็นคำพูดสุดท้ายผลการค้นพบเชิงสาเหตุยังคงมี จำกัด มากดังนั้นผู้คนจึงต้องระมัดระวังอย่างมากเมื่อใช้สิ่งเหล่านี้ขึ้นอยู่กับบริบท
Carlos Cinelli

4

มีวิธีการที่หลากหลายในการทำให้เป็นรูปเป็นร่างเป็นเวร (ซึ่งสอดคล้องกับปรัชญาที่ไม่เห็นด้วยอย่างมากเกี่ยวกับเวรกรรมที่มีมานานหลายศตวรรษ) หนึ่งที่นิยมคือในแง่ของผลลัพธ์ที่อาจเกิดขึ้น วิธีหาผลลัพธ์ที่เป็นไปได้ที่เรียกว่าแบบจำลองเชิงสาเหตุรูบินสมมติว่าสำหรับแต่ละสถานการณ์เชิงสาเหตุมีตัวแปรสุ่มแตกต่างกัน ดังนั้นY1อาจเป็นตัวแปรสุ่มของผลลัพธ์ที่เป็นไปได้จากการทดลองทางคลินิกหากผู้ทดลองใช้ยาเสพติดและY2อาจเป็นตัวแปรสุ่มหากเขาได้รับยาหลอก ผลกระทบเชิงสาเหตุคือความแตกต่างระหว่างY1และY2 2 ถ้าในความเป็นจริงY1=Y2

ความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรยังสามารถนำเสนอด้วยกราฟ acylical ทิศทางซึ่งมีรสชาติที่แตกต่างกันมาก แต่กลับกลายเป็นคณิตศาสตร์เทียบเท่ากับแบบจำลอง Rubin (Wasserman, 2004, หัวข้อ 17.8)

Wasserman, L. (2004) สถิติทั้งหมด: หลักสูตรรัดกุมในการอนุมานทางสถิติ New York, NY: Springer ไอ 978-0-387-40272-7


ขอขอบคุณ. สิ่งที่จะทดสอบสำหรับชุดตัวอย่างจากการกระจายข้อ?
Jane

3
ฉันอ่านarxiv.org/abs/1804.04622 ฉันยังไม่ได้อ่านเอกสารอ้างอิง ฉันพยายามที่จะเข้าใจความหมายของเวรกรรมตามข้อมูลเชิงสังเกต
Jane

1
ฉันขอโทษ (-1) นี่ไม่ใช่สิ่งที่ถูกถามคุณไม่ได้สังเกต Y1 ไม่ Y2คุณสังเกตตัวอย่างของตัวแปรที่เป็นข้อเท็จจริง X, Y. ดูกระดาษที่ Jane เชื่อมโยง
Carlos Cinelli

2
@Vimal:I understand the case where we have "interventional distributions". We don't have "interventional distributions" in this setting and that is what makes it harder to understand. In the motivating example in the paper they give something like (x,y=x3+ϵ). The conditional distribution of y given x is essentially the distribution of the noise ϵ plus some translation, while that doesn't hold for the conditional distribution of x given y. I initiatively understand the example. I am trying to understand what is the general definition for observational discovery of causality.
Jane

2
@Jane for observational case (for your question), in general you cannot infer direction of causality purely mathematically, at least for the two variable case. For more variables, under additional (untestable) assumptions you could make a claim, but the conclusion can still be questioned. This discussion is very long in comments. :)
Vimal

0

There are two ways to determine whether X is the cause of Y. The first is standard while the second is my own claim.

  1. There exists an intervention on X such that the value of Y is changed

An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.

  1. The simulation of Y requires the simulation of X

To make this rigorous requires formalizing a model over X and Y, and in particular the semantics which define how it is simulated.

In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.