ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่เป็นจุดแข็งและทิศทางของความสัมพันธ์ การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่? หรือการทดสอบสถิติเชิงอนุมาน (t-test ฯลฯ ) จำเป็นสำหรับสิ่งนั้นหรือไม่?
ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่เป็นจุดแข็งและทิศทางของความสัมพันธ์ การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่? หรือการทดสอบสถิติเชิงอนุมาน (t-test ฯลฯ ) จำเป็นสำหรับสิ่งนั้นหรือไม่?
คำตอบ:
คำตอบอย่างรวดเร็วคือไม่ คุณสามารถหาข้อมูลที่ไม่เกี่ยวข้องได้อย่างง่ายดายซึ่งเมื่อทำการถดถอยแล้วจะผ่านการทดสอบทางสถิติทุกประเภท ด้านล่างเป็นรูปภาพเก่าจาก Wikipedia (ซึ่งมีเหตุผลบางอย่างที่เพิ่งถูกลบออกไป) ซึ่งถูกนำมาใช้เพื่อแสดงให้เห็นถึง "สาเหตุ" ที่ขับเคลื่อนด้วยข้อมูล
เราต้องการโจรสลัดมากขึ้นเพื่อทำให้โลกเย็นลง?
สำหรับอนุกรมเวลามีคำที่เรียกว่า "Granger Causality" ที่มีความหมายที่เฉพาะเจาะจงมาก
http://en.wikipedia.org/wiki/Granger_causality
นอกเหนือจากนั้น "เวรกรรม" อยู่ในสายตาของคนดู
ไม่มีอะไรที่ชัดเจนในวิชาคณิตศาสตร์ของการถดถอยที่ความสัมพันธ์เชิงสาเหตุของรัฐและด้วยเหตุนี้เราไม่จำเป็นต้องตีความความลาดชัน (ความแข็งแกร่งและทิศทาง) อย่างชัดเจนหรือค่า p (เช่นความน่าจะเป็นความสัมพันธ์ที่แข็งแกร่งหรือแข็งแรงกว่านั้น ความสัมพันธ์เป็นศูนย์ในประชากร) ในลักษณะที่เป็นสาเหตุ
ที่ถูกกล่าวว่าฉันจะบอกว่าการถดถอยจะมีความหมายแฝงที่แข็งแกร่งมากขึ้นว่าหนึ่งกำลังประเมินความสัมพันธ์ของทิศทางที่ชัดเจนกว่าการประมาณความสัมพันธ์ระหว่างสองตัวแปร สมมติว่ามีความสัมพันธ์กันคุณหมายถึงPearson's rโดยทั่วไปแล้วมันไม่มีการตีความเชิงสาเหตุที่ชัดเจนเนื่องจากเมตริกมีความสมมาตร (เช่นคุณสามารถสลับตัวแปรที่เป็น X และซึ่งก็คือ Y และคุณจะยังคงมีการวัดเดียวกัน) นอกจากนี้การพูดภาษา "ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ" ฉันจะสงสัยว่าเป็นที่รู้จักกันดีว่าการระบุตัวแปรสองตัวมีความสัมพันธ์กับการสันนิษฐานว่าเป็นหนึ่งไม่ได้ทำให้คำสั่งสาเหตุ
ผลกระทบโดยประมาณในการวิเคราะห์การถดถอยไม่ได้เป็นแบบเชิงสมมาตรดังนั้นโดยการเลือกว่าตัวแปรใดที่อยู่ทางด้านขวามือกับทางด้านซ้ายมือคนหนึ่งกำลังสร้างข้อความโดยปริยายซึ่งแตกต่างจากความสัมพันธ์ ฉันสงสัยว่าคนหนึ่งตั้งใจที่จะสร้างประโยคเชิงสาเหตุในสถานการณ์ส่วนใหญ่ที่ใช้การถดถอย แม้ในกรณีที่มีความสัมพันธ์เพียงแค่ระบุว่าฉันสงสัยว่าคนมักจะมีเป้าหมายโดยนัยของการอนุมานสาเหตุในใจ เนื่องจากข้อ จำกัด บางอย่างมีความสัมพันธ์กันสามารถบ่งบอกถึงสาเหตุได้ !
ความสัมพันธ์หรือการถดถอยไม่สามารถบ่งบอกถึงสาเหตุ (ตามที่แสดงโดยคำตอบของ @ bill_080) แต่เป็น @Andy W หมายถึงการถดถอยมักขึ้นอยู่กับตัวแปรที่แน่นอน (เช่นอิสระ) และตัวแปรตาม การกำหนดเหล่านี้ไม่เหมาะสมในการวิเคราะห์สหสัมพันธ์
เพื่ออ้างถึง Sokal และ Rohlf, 1969, p. 496
"ในการถดถอยเราตั้งใจจะอธิบายการพึ่งพาของตัวแปรYในตัวแปรอิสระX ... เพื่อสนับสนุนสมมติฐานที่เกี่ยวข้องกับสาเหตุที่เป็นไปได้ของการเปลี่ยนแปลงในYโดยการเปลี่ยนแปลงในX ... "
"ในความสัมพันธ์โดยคมชัดเราส่วนใหญ่มีความกังวลว่าตัวแปรทั้งสองมีการพึ่งพาซึ่งกันและกันหรือcovary -. ที่แตกต่างกันไปด้วยกันเราไม่ได้แสดงหนึ่งเป็นหน้าที่ของคนอื่น ๆ ."
Sokal, RR และ FJ Rohlf, 1969. รูปทรงเรขาคณิต ฟรีแมนและ บริษัท
จากมุมมองทางความหมายเป้าหมายทางเลือกคือการสร้างหลักฐานสำหรับแบบจำลองการทำนายที่ดีแทนที่จะพิสูจน์สาเหตุ ขั้นตอนง่าย ๆ สำหรับสร้างหลักฐานสำหรับค่าการทำนายของตัวแบบการถดถอยคือการแบ่งข้อมูลของคุณออกเป็น 2 ส่วนและทำให้การถดถอยของคุณเหมาะสมกับส่วนหนึ่งของข้อมูลและอีกส่วนหนึ่งของการทดสอบข้อมูลที่ทำนายได้ดีเพียงใด
ความคิดเกี่ยวกับเวรกรรม Grangerนั้นน่าสนใจ
โดยที่ Var (.) และ Cov (.) เป็นการประมาณจากตัวอย่าง (data)
ดังนั้นพารามิเตอร์เหล่านี้เองจึงไม่มีอะไรอื่นนอกจากฟังก์ชั่นความสัมพันธ์ระหว่าง x และ y โดยเฉพาะอย่างยิ่งเบต้าเป็นเพียงค่าสัมประสิทธิ์สหสัมพันธ์ ดังนั้นจึงไม่มีเหตุที่เป็นนัยในการถดถอยมากกว่าในสหสัมพันธ์ การถดถอยเชิงสาเหตุเป็นเทคนิคพิเศษในสาขาเศรษฐมิติที่ใคร ๆ ก็ต้องพึ่งพาเช่นตัวแปรเครื่องมือในการหลีกเลี่ยงปรากฏการณ์ต่าง ๆ เช่นสับสนที่บดบังการตีความเชิงสาเหตุของแบบจำลองการถดถอยใด ๆ
จุดของฉันคือ: การถดถอยสามารถทำให้เกิดสาเหตุ แต่มันไม่ได้เป็นสาเหตุเริ่มต้นที่ y
สำหรับข้อมูลเพิ่มเติมโปรดดูวิดีโอเหล่านี้: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s
"รูปแบบ Rubin" โดย Rubin ตัวเอง: http://www.stat.columbia.edu/~cook/qr33.pdf
หลักสูตรเบื้องต้นที่ยอดเยี่ยมเกี่ยวกับสาเหตุ (แม้ว่ายังไม่มีการถดถอย): https://www.coursera.org/learn/crash-course-in-causality
My understanding (I'm a causality beginner) is the following:
Linear regression implies causality if your covariates are from a controlled experiment, and your experiment isolates the hypothesized causal factor well (see Linear regression and causality in a randomized controlled experiment).
Alternatively, (updated thanks to comments), many violations of causality lead to . Note that means that we can't draw causal conclusions, but doesn't mean that we can.
Note that we can't test whether , and there is some circularity in the arguments here.
Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....
Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.