แบบจำลองทางสถิติสามารถพูดเกี่ยวกับสาเหตุได้อย่างไร ข้อควรพิจารณาอะไรควรทำเมื่อทำการอนุมานเชิงสาเหตุจากแบบจำลองทางสถิติ
สิ่งแรกที่ต้องทำให้ชัดเจนคือคุณไม่สามารถอนุมานสาเหตุได้จากโมเดลเชิงสถิติอย่างหมดจด แบบจำลองทางสถิติไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้โดยไม่มีข้อสันนิษฐานสาเหตุ นั่นคือการที่จะทำให้การอนุมานสาเหตุที่คุณต้องรุ่นสาเหตุ
แม้ในบางสิ่งที่ถือว่าเป็นมาตรฐานทองคำเช่นการทดลองควบคุมแบบสุ่ม (RCT) คุณจำเป็นต้องตั้งสมมติฐานเชิงสาเหตุเพื่อดำเนินการต่อ ให้ฉันทำให้ชัดเจน ตัวอย่างเช่นสมมติว่าคือขั้นตอนการสุ่มตัวอย่างคือการรักษาที่น่าสนใจและคือผลลัพธ์ของดอกเบี้ย เมื่อสมมติว่า RCT สมบูรณ์แบบนี่คือสิ่งที่คุณสมมติ:ZXY
ในกรณีนี้ดังนั้นทุกอย่างทำงานได้ดี แต่สมมติว่าคุณมีการปฏิบัติที่ไม่สมบูรณ์ส่งผลให้ความสัมพันธ์ระหว่างอดสูและYจากนั้นตอนนี้ RCT ของคุณจะเป็นดังนี้:P(Y|do(X))=P(Y|X)XY
คุณยังคงสามารถทำการวิเคราะห์ต่อไปได้ แต่ถ้าคุณต้องการประเมินผลกระทบที่เกิดขึ้นจริงของ Things นั้นไม่ใช่เรื่องง่ายอีกต่อไป นี่คือการตั้งค่าตัวแปรที่มีประโยชน์และคุณอาจจะสามารถที่จะถูกผูกไว้หรือแม้กระทั่งการชี้แจ้งผลกระทบถ้าคุณทำพาราบางสมมติฐานX
สิ่งนี้จะซับซ้อนยิ่งขึ้น คุณอาจมีปัญหาข้อผิดพลาดการวัดวิชาอาจวางการศึกษาหรือไม่ปฏิบัติตามคำแนะนำในหมู่ปัญหาอื่น ๆ คุณจะต้องตั้งสมมติฐานว่าสิ่งเหล่านั้นเกี่ยวข้องกับขั้นตอนการอนุมานอย่างไร ด้วยข้อมูลเชิงสังเกต "หมดจด" สิ่งนี้อาจเป็นปัญหาได้มากกว่าเพราะโดยทั่วไปแล้วนักวิจัยจะไม่มีความคิดที่ดีเกี่ยวกับกระบวนการสร้างข้อมูล
ดังนั้นในการวาดการอนุมานเชิงสาเหตุจากแบบจำลองคุณจำเป็นต้องตัดสินไม่เพียง แต่สมมติฐานทางสถิติเท่านั้น แต่ที่สำคัญที่สุดคือข้อสมมติฐานเชิงสาเหตุ นี่คือภัยคุกคามที่พบบ่อยในการวิเคราะห์เชิงสาเหตุ:
- ข้อมูลไม่สมบูรณ์ / ไม่แน่นอน
- เป้าหมายปริมาณความสนใจเชิงสาเหตุไม่ได้กำหนดไว้อย่างชัดเจน (อะไรคือสาเหตุเชิงสาเหตุที่คุณต้องการระบุอะไรประชากรเป้าหมายคืออะไร)
- Confounding (confounders ที่ไม่ได้สังเกต)
- การเลือกอคติ (การเลือกด้วยตนเองตัวอย่างที่ถูกตัด)
- ข้อผิดพลาดการวัด (ที่สามารถทำให้เกิดการรบกวนไม่เพียง แต่เสียงรบกวน)
- การระบุผิดพลาด (เช่นแบบฟอร์มการทำงานผิด)
- ปัญหาความถูกต้องภายนอก (การอนุมานผิดกับประชากรเป้าหมาย)
บางครั้งการเรียกร้องการขาดงานของปัญหาเหล่านี้ (หรือการเรียกร้องให้แก้ไขปัญหาเหล่านี้) สามารถสำรองได้โดยการออกแบบการศึกษาเอง นั่นเป็นเหตุผลว่าทำไมข้อมูลการทดลองจึงมีความน่าเชื่อถือมากกว่า อย่างไรก็ตามในบางครั้งผู้คนจะเข้าใจถึงปัญหาเหล่านี้ไม่ว่าจะด้วยทฤษฎีหรือเพื่อความสะดวก ถ้าทฤษฎีนุ่ม (เหมือนในสังคมศาสตร์) มันจะยากกว่าที่จะหาข้อสรุปที่มูลค่า
เมื่อใดก็ตามที่คุณคิดว่ามีข้อสันนิษฐานที่ไม่สามารถสำรองข้อมูลได้คุณควรประเมินว่าข้อสรุปที่ละเอียดอ่อนนั้นเป็นการละเมิดสมมติฐานที่น่าเชื่อถือได้หรือไม่ซึ่งมักเรียกว่าการวิเคราะห์ความอ่อนไหว