เป็นสาเหตุการถดถอยถ้าไม่มีตัวแปรที่ละเว้นหรือไม่?


13

ถดถอยของบนไม่จำเป็นต้องเป็นสาเหตุถ้ามีจะถูกตัดตัวแปรที่มีอิทธิพลต่อทั้งและy ที่แต่ถ้าไม่ใช่สำหรับตัวแปรที่ละเว้นและข้อผิดพลาดการวัดสาเหตุการถดถอยคืออะไร นั่นคือถ้าทุกตัวแปรที่เป็นไปได้รวมอยู่ในการถดถอย?yxxy


4
ไม่แม้ว่าคุณจะรวมตัวแปรทุกตัวในโลก แต่มันอาจเป็นสาเหตุที่ตรงกันข้าม ยกตัวอย่างเช่นระยะทางจากดาวเคราะห์ใกล้กับดาวฤกษ์ที่อยู่ใกล้ที่สุดสามารถทำนายได้อย่างแม่นยำโดยอุณหภูมิพื้นผิวของดาวเคราะห์ แต่อย่างชัดเจนว่าเวรกรรมเป็นไปในทางอื่น
gazza89

@ gazza89 - เนื่องจากการตอบคำถามมีประสิทธิภาพคุณอาจต้องการขยายเป็นคำตอบ
jbowman

3
"ตัวแปรที่ละเว้น" คืออะไร สมมติว่าฉันมีหนึ่ง Y และ 4 Xs ในชุดข้อมูลของฉัน ฉันพอดีกับโมเดลรวมทั้ง 4 Xs ทั้งหมด ถ้าอย่างนั้นฉันก็ไม่มีตัวแปรที่ละเว้น
user158565

คำตอบ:


20

ไม่ไม่ฉันจะแสดงตัวอย่างให้คุณดู

ที่แรกก็คือทำให้เกิดผลย้อนกลับ พิจารณาแบบจำลองเชิงสาเหตุคือโดยที่และเป็นตัวแปรสุ่มแบบเกาส์มาตรฐาน จากนั้นเนื่องจากไม่ก่อให้เกิดแต่จะขึ้นอยู่กับXYXXYE[Y|do(x)]=0XYE[Y|x]X

ตัวอย่างที่สองคือการควบคุมสำหรับ colliders (ดูที่นี่ ) พิจารณาแบบจำลองเชิงสาเหตุนั่นคือไม่ทำให้และเป็นสาเหตุทั่วไป แต่โปรดทราบว่าถ้าคุณเรียกใช้การถดถอยรวมถึงสัมประสิทธิ์การถดถอยของจะไม่เป็นศูนย์เพราะการปรับสภาพที่สาเหตุทั่วไปจะทำให้เกิดการเชื่อมโยงระหว่างและ (คุณอาจต้องการดูที่นี่เช่นกันการวิเคราะห์เส้นทางในสถานะ เงื่อนไข Collider - เมื่อ )XZYXYZZXYX

โดยทั่วไปการถดถอยของในจะเป็นสาเหตุหากตัวแปรที่รวมอยู่ในการถดถอยตอบสนองเกณฑ์ลับๆYX


3
ขอแนะนำหนังสือของ Why โดย Judea Pearl อธิบายอย่างละเอียดถึงสิ่งที่คาร์ลอสอ้างถึง
Markos Kashiouris

3
สิ่งที่ไม่หมายถึง? do(x)
naught101

5
@ naught101 ก็หมายความว่าคุณจริงบังคับ X = x ในทางตรงกันข้ามกับอดทนสังเกต X = x ดูที่นี่stats.stackexchange.com/questions/211008/dox-operator-meaning/...
คาร์ลอ Cinelli

ขอบคุณ แต่ฉันไม่ชัดเจนเกี่ยวกับสัญกรณ์ ไม่หมายถึงทำให้เกิดและ ? ลูกศรควรกลับด้านหรือไม่ Z X YXZYZXY
Esha

@Esha หมายถึงทั้งและทำให้y zxyz
Carlos Cinelli

6

นอกเหนือจากคำตอบที่สำคัญของ Carlos Cinelli แล้วยังมีอีกสองสามเหตุผลที่สัมประสิทธิ์การถดถอยอาจไม่เป็นสาเหตุ

ประการแรกการสะกดผิดแบบจำลองสามารถทำให้พารามิเตอร์ไม่เป็นสาเหตุได้ เพียงเพราะคุณมีตัวแปรที่เกี่ยวข้องทั้งหมดในแบบจำลองของคุณไม่ได้หมายความว่าคุณได้ปรับตัวแปรเหล่านั้นในวิธีที่ถูกต้อง เป็นตัวอย่างที่ง่ายมากพิจารณาตัวแปรที่มีการกระจายสมมาตรรอบ 0. สมมติว่าผลตัวแปรของคุณเป็นผลกระทบจากในลักษณะที่ 2 ถอยบน (เมื่อเทียบกับใน ) จะแล้วจะให้ค่าสัมประสิทธิ์ประมาณสำหรับประมาณ 0, ลำเอียงอย่างชัดเจนแม้จะมีคุณมีการตั้งค่าทั้งหมด (เท่านั้น) ตัวแปรที่มีผลต่อYXYXE(YX)=X2YXX2XY

ประการที่สองและเกี่ยวข้องกับหัวข้อของสาเหตุเชิงย้อนกลับนอกจากนี้ยังมีความเสี่ยงที่คุณสามารถมีอคติในการคัดเลือกเช่นตัวอย่างของคุณได้รับการคัดเลือกในลักษณะที่ไม่ได้เป็นตัวแทนของประชากรที่คุณต้องการอนุมาน นอกจากนี้ข้อมูลที่หายไปยังสามารถทำให้มีอคติได้หากข้อมูลไม่ได้สุ่มโดยสมบูรณ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.