ทฤษฎีเชิงสาเหตุเสนอคำอธิบายอีกวิธีหนึ่งว่าตัวแปรสองตัวสามารถมีความเป็นอิสระได้อย่างไร ฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับทฤษฎีเชิงสาเหตุและรู้สึกขอบคุณสำหรับคำวิจารณ์ที่จะแก้ไขข้อผิดพลาดใด ๆ ด้านล่าง
เพื่อแสดงให้เห็นว่าฉันจะใช้กราฟ acyclic โดยตรง (DAG) ในกราฟเหล่านี้ edge ( ) ระหว่างตัวแปรแสดงถึงความสัมพันธ์เชิงสาเหตุโดยตรง หัวลูกศร (หรือ ) ระบุทิศทางของความสัมพันธ์เชิงสาเหตุ ดังนั้นอนุมานว่าเป็นสาเหตุโดยตรงและอนุมานว่ามีสาเหตุโดยตรงจากBเป็นเส้นทางเชิงสาเหตุที่ infers ที่ทำให้ถึงทางอ้อม−←→A→BABA←BABA→B→CACB. เพื่อให้เข้าใจง่ายสมมติว่าความสัมพันธ์เชิงสาเหตุทั้งหมดเป็นเส้นตรง
ก่อนอื่นให้พิจารณาตัวอย่างง่ายๆของอคติที่สับสน :
นี่ถดถอย bivariable ง่ายจะแนะนำการพึ่งพาอาศัยกันระหว่างและYแต่ไม่มีความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างและYแต่ทั้งคู่เกิดขึ้นโดยตรงจากและในการถดถอยแบบง่าย bivariable การสังเกตทำให้เกิดความไม่พอใจระหว่างและทำให้เกิดอคติโดยการทำให้สับสน อย่างไรก็ตามเครื่องถดถอยหลายตัวแปรในจะลบอคติและแนะนำการพึ่งพาอาศัยกันระหว่างไม่มีและYXYXYZZXYZXY
ประการที่สองลองพิจารณาตัวอย่างของcollider bias (หรือที่รู้จักกันในชื่อ Berkson bias หรือ berksonian bias ซึ่ง bias ที่เลือกเป็นแบบพิเศษ):
นี่ถดถอย bivariable ง่ายจะแนะนำการพึ่งพาอาศัยกันระหว่างไม่มีและYนี้เห็นด้วยกับ DAG ซึ่งอนุมานไม่มีความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างและYอย่างไรก็ตามการปรับเงื่อนไขการถดถอยหลายตัวแปรบนจะทำให้เกิดการพึ่งพากันระหว่างและชี้ให้เห็นว่าความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างตัวแปรทั้งสองนั้นอาจมีอยู่ การรวมในผลการถดถอยหลายตัวแปรในอคติคอลไลเดอร์XYXYZXYZ
ประการที่สามพิจารณาตัวอย่างของการยกเลิกโดยไม่ตั้งใจ:
ให้เราสมมติว่า ,และมีค่าสัมประสิทธิ์เส้นทางและ- ถดถอย bivariable ง่ายจะแนะนำ depenence ระหว่างไม่มีและYแม้ว่าในความเป็นจริงเป็นสาเหตุโดยตรงของผลรบกวนของในและบังเอิญยกเลิกออกผลกระทบของในYการปรับเงื่อนไขการถดถอยหลายตัวแปรบนจะลบเอฟเฟ็กต์ที่สับสนของบนและαβγβ=−αγXYXYZXYXYZZXYทำให้สามารถประมาณผลกระทบโดยตรงของต่อโดยสมมติว่า DAG ของแบบจำลองเชิงสาเหตุนั้นถูกต้องXY
เพื่อสรุป:
ปัจจัยรบกวนเช่น: และจะขึ้นอยู่ในการถดถอย bivariable และเป็นอิสระในการปรับสภาพถดถอยหลายตัวแปรในปัจจัยรบกวนZXYZ
Collider ตัวอย่างเช่น และมีความเป็นอิสระในการถดถอย bivariable และขึ้นอยู่ในเครื่อง regresssion หลายตัวแปรใน Collider ZXYZ
ยกเลิกตัวอย่าง Inicdental: และมีความเป็นอิสระในการถดถอย bivariable และขึ้นอยู่ในเครื่อง regresssion หลายตัวแปรในปัจจัยรบกวนZXYZ
Discussion:
ผลลัพธ์ของการวิเคราะห์ของคุณเข้ากันไม่ได้กับตัวอย่างที่สับสน แต่เข้ากันได้กับทั้งตัวอย่าง collider และตัวอย่างการยกเลิกโดยบังเอิญ ดังนั้นคำอธิบายที่อาจเกิดขึ้นคือการที่คุณมีเงื่อนไขไม่ถูกต้องบนตัวแปร Collider ในการถดถอยหลายตัวแปรของคุณและมีการเหนี่ยวนำให้เกิดการเชื่อมโยงระหว่างและแม้ว่าไม่ได้เป็นสาเหตุของและไม่ได้เป็นสาเหตุของXหรือคุณอาจมีเงื่อนไขถูกต้องใน confounder ในการถดถอยหลายตัวแปรที่มีการยกเลิกผลกระทบที่แท้จริงของกับในการถดถอยแบบ bivariable ของคุณXYXYYXXY
ฉันพบว่าการใช้ความรู้พื้นฐานเพื่อสร้างแบบจำลองเชิงสาเหตุมีประโยชน์เมื่อพิจารณาว่าตัวแปรใดที่จะรวมในตัวแบบสถิติ ตัวอย่างเช่นหากการศึกษาแบบสุ่มที่มีคุณภาพสูงก่อนหน้านี้ได้ข้อสรุปว่าทำให้และเป็นสาเหตุของฉันสามารถสันนิษฐานได้ว่าเป็น collider ของและและไม่มีเงื่อนไขสำหรับมันในแบบจำลองทางสถิติ อย่างไรก็ตามถ้าฉันเพียงแค่มีสัญชาตญาณว่าทำให้และทำให้แต่ไม่มีหลักฐานทางวิทยาศาสตร์ที่แข็งแกร่งที่จะสนับสนุนสัญชาตญาณของฉันฉันจะทำได้เพียงสมมติฐานอ่อนแอที่XZYZZXYXZYZZเป็น collider ของและเนื่องจากสัญชาติญาณของมนุษย์มีประวัติของการเข้าใจผิด ต่อจากนั้นผมจะไม่เชื่อใน infering ความสัมพันธ์เชิงสาเหตุระหว่างและโดยไม่ต้องสืบสวนต่อไปของความสัมพันธ์เชิงสาเหตุของพวกเขาด้วยZแทนหรือนอกเหนือจากความรู้พื้นฐานแล้วยังมีอัลกอริทึมที่ออกแบบมาเพื่ออนุมานโมเดลเชิงสาเหตุจากข้อมูลโดยใช้ชุดการทดสอบความสัมพันธ์ (เช่นอัลกอริทึม PC และอัลกอริทึม FCI ดูTETRADสำหรับการนำ Java, PCalgXYXYZสำหรับการนำไปใช้ R) อัลกอริทึมเหล่านี้น่าสนใจมาก แต่ฉันจะไม่แนะนำอีกต่อไปโดยไม่ต้องพึ่งพาพวกมันหากไม่มีความเข้าใจอย่างถ่องแท้เกี่ยวกับพลังและข้อ จำกัด ของแคลคูลัสเชิงสาเหตุและตัวแบบเชิงสาเหตุในทฤษฎีเชิงสาเหตุ
สรุป:
การไตร่ตรองของแบบจำลองเชิงสาเหตุไม่ได้แก้ตัวผู้ตรวจสอบจากการพิจารณาข้อพิจารณาเชิงสถิติที่กล่าวถึงในคำตอบอื่น ๆ ที่นี่ อย่างไรก็ตามฉันรู้สึกว่าแบบจำลองเชิงสาเหตุสามารถให้กรอบการทำงานที่เป็นประโยชน์เมื่อคิดถึงคำอธิบายที่เป็นไปได้สำหรับการพึ่งพาทางสถิติและความเป็นอิสระในแบบจำลองทางสถิติโดยเฉพาะอย่างยิ่ง
อ่านเพิ่มเติม:
Gelman, Andrew 2554. " เวรกรรมและสถิติการเรียนรู้ " Am J. สังคมวิทยา 117 (3) (พฤศจิกายน): 955–966
กรีนแลนด์, S, J Pearl และ JM Robins 1999. “ แผนภาพสาเหตุสำหรับการวิจัยทางระบาดวิทยา ” ระบาดวิทยา (เคมบริดจ์, แมสซาชูเซตส์) 10 (1) (มกราคม): 37–48
กรีนแลนด์, ซานเดอร์ 2546. “ การหาจำนวนอคติในรูปแบบเชิงสาเหตุ: ความลำเอียงคลาสสิกที่น่ารำคาญเทียบกับการแบ่งชนชั้นแบบ Collider-Stratification ” ระบาดวิทยา 14 (3) (1 พฤษภาคม): 300–306
ไข่มุกจูเดีย 1998 ทำไมไม่มีสถิติการทดสอบสำหรับปัจจัยรบกวนทำไมหลายคนคิดว่ามีและทำไมพวกเขาเกือบจะขวา
ไข่มุกจูเดีย 2009 เวรกรรม: รุ่น, การใช้เหตุผลและการอนุมาน ฉบับที่ 2 สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
Spirtes, Peter, Clark Glymour และ Richard Scheines 2544. สาเหตุการพยากรณ์และการค้นหารุ่นที่สอง หนังสือแบรดฟอร์ด
ปรับปรุง:แคว้นยูเดียเพิร์ลกล่าวถึงทฤษฎีของสาเหตุการอนุมานและความจำเป็นในการอนุมานสาเหตุรวมเข้าไปในหลักสูตรสถิติเบื้องต้นในที่พฤศจิกายน 2012 ฉบับ Amstat ข่าว เขาบรรยายรางวัลทัวริงชื่อ "เครื่องจักรกลของสาเหตุการอนุมาน: การทดสอบทัวริง 'มินิ' และเกิน" ยังเป็นที่น่าสนใจ