การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่?


17

ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่เป็นจุดแข็งและทิศทางของความสัมพันธ์ การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่? หรือการทดสอบสถิติเชิงอนุมาน (t-test ฯลฯ ) จำเป็นสำหรับสิ่งนั้นหรือไม่?


3
"ทิศทาง" หมายถึงอะไร? คุณอ่านคำตอบของคำถามที่คล้ายกันstats.stackexchange.com/search?q=causal แล้วหรือยัง คำตอบสั้น ๆ คือไม่!
NRH

3
คำแนะนำของคุณไม่ได้บอกถึงสาเหตุ (หรือทิศทาง)
เฮนรี่

2
ฉันคิดว่า OP หมายถึง "ทิศทาง" ในแง่ของความสัมพันธ์เชิงบวกกับเชิงลบไม่ใช่ทิศทางของความสัมพันธ์เชิงสาเหตุระหว่าง X และ Y
JMS

คำตอบ:


19

คำตอบอย่างรวดเร็วคือไม่ คุณสามารถหาข้อมูลที่ไม่เกี่ยวข้องได้อย่างง่ายดายซึ่งเมื่อทำการถดถอยแล้วจะผ่านการทดสอบทางสถิติทุกประเภท ด้านล่างเป็นรูปภาพเก่าจาก Wikipedia (ซึ่งมีเหตุผลบางอย่างที่เพิ่งถูกลบออกไป) ซึ่งถูกนำมาใช้เพื่อแสดงให้เห็นถึง "สาเหตุ" ที่ขับเคลื่อนด้วยข้อมูล

เราต้องการโจรสลัดมากขึ้นเพื่อทำให้โลกเย็นลง?

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับอนุกรมเวลามีคำที่เรียกว่า "Granger Causality" ที่มีความหมายที่เฉพาะเจาะจงมาก

http://en.wikipedia.org/wiki/Granger_causality

นอกเหนือจากนั้น "เวรกรรม" อยู่ในสายตาของคนดู


ฉันหมายถึงความสัมพันธ์เชิงบวกหรือเชิงลบตามทิศทาง ขอบคุณสำหรับคำตอบและลิงก์ไปยังคำถามที่คล้ายกัน
user4572

1
นั่นเป็นแกน X ที่บ้าคลั่งในภาพนั้น! (แต่เป็นตัวอย่างที่ดี!)
Andy W

2
อีกหนึ่ง ..... ชีสเนยและแกะในบังคลาเทศเทียบกับ S & P500 (R ^ 2 = 0.99) ...... nerdsonwallstreet.typepad.com/my_weblog/files/ ...... ....
bill_080

5
กราฟที่จะเห็นได้ชัดว่าล้าสมัย ไม่ว่าจะมีหรือมีอคติเนื่องจากการขาดการสำรวจตัวอย่างในอ่าวเอเดน
พระคาร์ดินัล

2
ข้อมูลนั้นก่อนที่อัลกอร์จะกลายเป็นโจรสลัด
bill_080

10

ไม่มีอะไรที่ชัดเจนในวิชาคณิตศาสตร์ของการถดถอยที่ความสัมพันธ์เชิงสาเหตุของรัฐและด้วยเหตุนี้เราไม่จำเป็นต้องตีความความลาดชัน (ความแข็งแกร่งและทิศทาง) อย่างชัดเจนหรือค่า p (เช่นความน่าจะเป็นความสัมพันธ์ที่แข็งแกร่งหรือแข็งแรงกว่านั้น ความสัมพันธ์เป็นศูนย์ในประชากร) ในลักษณะที่เป็นสาเหตุ

ที่ถูกกล่าวว่าฉันจะบอกว่าการถดถอยจะมีความหมายแฝงที่แข็งแกร่งมากขึ้นว่าหนึ่งกำลังประเมินความสัมพันธ์ของทิศทางที่ชัดเจนกว่าการประมาณความสัมพันธ์ระหว่างสองตัวแปร สมมติว่ามีความสัมพันธ์กันคุณหมายถึงPearson's rโดยทั่วไปแล้วมันไม่มีการตีความเชิงสาเหตุที่ชัดเจนเนื่องจากเมตริกมีความสมมาตร (เช่นคุณสามารถสลับตัวแปรที่เป็น X และซึ่งก็คือ Y และคุณจะยังคงมีการวัดเดียวกัน) นอกจากนี้การพูดภาษา "ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ" ฉันจะสงสัยว่าเป็นที่รู้จักกันดีว่าการระบุตัวแปรสองตัวมีความสัมพันธ์กับการสันนิษฐานว่าเป็นหนึ่งไม่ได้ทำให้คำสั่งสาเหตุ

ผลกระทบโดยประมาณในการวิเคราะห์การถดถอยไม่ได้เป็นแบบเชิงสมมาตรดังนั้นโดยการเลือกว่าตัวแปรใดที่อยู่ทางด้านขวามือกับทางด้านซ้ายมือคนหนึ่งกำลังสร้างข้อความโดยปริยายซึ่งแตกต่างจากความสัมพันธ์ ฉันสงสัยว่าคนหนึ่งตั้งใจที่จะสร้างประโยคเชิงสาเหตุในสถานการณ์ส่วนใหญ่ที่ใช้การถดถอย แม้ในกรณีที่มีความสัมพันธ์เพียงแค่ระบุว่าฉันสงสัยว่าคนมักจะมีเป้าหมายโดยนัยของการอนุมานสาเหตุในใจ เนื่องจากข้อ จำกัด บางอย่างมีความสัมพันธ์กันสามารถบ่งบอกถึงสาเหตุได้ !


7

ความสัมพันธ์หรือการถดถอยไม่สามารถบ่งบอกถึงสาเหตุ (ตามที่แสดงโดยคำตอบของ @ bill_080) แต่เป็น @Andy W หมายถึงการถดถอยมักขึ้นอยู่กับตัวแปรที่แน่นอน (เช่นอิสระ) และตัวแปรตาม การกำหนดเหล่านี้ไม่เหมาะสมในการวิเคราะห์สหสัมพันธ์

เพื่ออ้างถึง Sokal และ Rohlf, 1969, p. 496

"ในการถดถอยเราตั้งใจจะอธิบายการพึ่งพาของตัวแปรYในตัวแปรอิสระX ... เพื่อสนับสนุนสมมติฐานที่เกี่ยวข้องกับสาเหตุที่เป็นไปได้ของการเปลี่ยนแปลงในYโดยการเปลี่ยนแปลงในX ... "

"ในความสัมพันธ์โดยคมชัดเราส่วนใหญ่มีความกังวลว่าตัวแปรทั้งสองมีการพึ่งพาซึ่งกันและกันหรือcovary -. ที่แตกต่างกันไปด้วยกันเราไม่ได้แสดงหนึ่งเป็นหน้าที่ของคนอื่น ๆ ."

Sokal, RR และ FJ Rohlf, 1969. รูปทรงเรขาคณิต ฟรีแมนและ บริษัท


4

จากมุมมองทางความหมายเป้าหมายทางเลือกคือการสร้างหลักฐานสำหรับแบบจำลองการทำนายที่ดีแทนที่จะพิสูจน์สาเหตุ ขั้นตอนง่าย ๆ สำหรับสร้างหลักฐานสำหรับค่าการทำนายของตัวแบบการถดถอยคือการแบ่งข้อมูลของคุณออกเป็น 2 ส่วนและทำให้การถดถอยของคุณเหมาะสมกับส่วนหนึ่งของข้อมูลและอีกส่วนหนึ่งของการทดสอบข้อมูลที่ทำนายได้ดีเพียงใด

ความคิดเกี่ยวกับเวรกรรม Grangerนั้นน่าสนใจ


2

β^=Cov(x,y)Var(x)
α^=y¯β^x¯,

โดยที่ Var (.) และ Cov (.) เป็นการประมาณจากตัวอย่าง (data)

ดังนั้นพารามิเตอร์เหล่านี้เองจึงไม่มีอะไรอื่นนอกจากฟังก์ชั่นความสัมพันธ์ระหว่าง x และ y โดยเฉพาะอย่างยิ่งเบต้าเป็นเพียงค่าสัมประสิทธิ์สหสัมพันธ์ ดังนั้นจึงไม่มีเหตุที่เป็นนัยในการถดถอยมากกว่าในสหสัมพันธ์ การถดถอยเชิงสาเหตุเป็นเทคนิคพิเศษในสาขาเศรษฐมิติที่ใคร ๆ ก็ต้องพึ่งพาเช่นตัวแปรเครื่องมือในการหลีกเลี่ยงปรากฏการณ์ต่าง ๆ เช่นสับสนที่บดบังการตีความเชิงสาเหตุของแบบจำลองการถดถอยใด ๆ

จุดของฉันคือ: การถดถอยสามารถทำให้เกิดสาเหตุ แต่มันไม่ได้เป็นสาเหตุเริ่มต้นที่ y

สำหรับข้อมูลเพิ่มเติมโปรดดูวิดีโอเหล่านี้: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

"รูปแบบ Rubin" โดย Rubin ตัวเอง: http://www.stat.columbia.edu/~cook/qr33.pdf

หลักสูตรเบื้องต้นที่ยอดเยี่ยมเกี่ยวกับสาเหตุ (แม้ว่ายังไม่มีการถดถอย): https://www.coursera.org/learn/crash-course-in-causality


จุดที่ดี ยินดีต้อนรับสู่ประวัติย่อ
Neil G

0

My understanding (I'm a causality beginner) is the following:

  • Linear regression implies causality if your covariates are from a controlled experiment, and your experiment isolates the hypothesized causal factor well (see Linear regression and causality in a randomized controlled experiment).

  • Alternatively, (updated thanks to comments), many violations of causality lead to E(ϵ|X)0. Note that E(ϵ|X)0 means that we can't draw causal conclusions, but E(ϵ|X)=0 doesn't mean that we can.

Note that we can't test whether E(ϵ|X)=0, and there is some circularity in the arguments here.


2
Could you elaborate on how E(ϵ|X)=0 implies causation?
Sextus Empiricus

See this for a detailed discussion stats.stackexchange.com/questions/59588/…, with some nice points made.
mlstudent

could you be a bit more direct. I see no prrof or explanation how or why E(ϵ|X)=0 implies causation.
Sextus Empiricus

I'm a bit new to causality, but as I understand it there are three major concerns that could make y=α+βx+ϵ not imply causality. One is if there is some other omitted variable causing y, another is if there is an omitted variable causing x, and finally a third is that y may cause x. All will lead to violations of the exogeneity condition. I don't have the math for exactly why but will actually look this up/try to derive it.
mlstudent

A simple counter example. When you generate data YN(μY,σY) and X|YN(a+bY,σX) then you still have E(ϵ|X)=0 (X and Y are jointly normal distributed).
Sextus Empiricus

-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.


6
This is completely wrong. Regression just finds a relationship between two sets of numbers. Whether that relationship exists because of a direct causal connection or not is a completely different issue.
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.