สถิติและการอนุมานสาเหตุ?


51

ใน 1,984 กระดาษของเขา"สถิติและการอนุมานสาเหตุ" Paul Holland ยกหนึ่งในคำถามพื้นฐานที่สุดในสถิติ:

แบบจำลองทางสถิติสามารถพูดเกี่ยวกับสาเหตุได้อย่างไร

สิ่งนี้นำไปสู่คำขวัญของเขา:

ไม่มีการแย้งโดยไม่มีการจัดการ

ซึ่งเน้นความสำคัญของข้อ จำกัด เกี่ยวกับการทดลองที่พิจารณาถึงสาเหตุ Andrew Gelman ทำให้ประเด็นที่คล้ายกัน :

"เพื่อค้นหาว่าเกิดอะไรขึ้นเมื่อคุณเปลี่ยนแปลงบางสิ่งจำเป็นต้องเปลี่ยนมัน" ... มีบางสิ่งที่คุณเรียนรู้จากการรบกวนระบบที่คุณจะไม่พบจากการสังเกตเชิงรับจำนวนมาก

ความคิดของเขาได้สรุปไว้ในบทความนี้

ข้อควรพิจารณาอะไรควรทำเมื่อทำการอนุมานเชิงสาเหตุจากแบบจำลองทางสถิติ


2
คำถามที่ดี: ดูคำถามที่เกี่ยวข้องกับความสัมพันธ์และการก่อให้เกิดสถิติ
Jeromy Anglim


5
ไปมากที่จะพูด แต่คุณสามารถอ่านหนังสือ "Causality" ของ Pearl (2002 แต่ใหม่กว่า 2nd edition) หรือ Hernan and Robins 'หนังสืออนุมานสาเหตุ "(2015 ฟรีดราฟท์อิเล็กทรอนิกส์ออนไลน์หากคุณค้นหา)

คำตอบ:


28

นี่เป็นคำถามที่กว้างขวาง แต่เมื่อได้รับกล่องข้อความอ้างอิงจากฮันเตอร์และฮันเตอร์เป็นความจริงฉันคิดว่าสิ่งที่เกิดขึ้นคือ

  1. คุณภาพของการออกแบบการทดลอง:

    • การสุ่มตัวอย่างขนาดตัวอย่างการควบคุมของคู่สนทนา ...
  2. คุณภาพของการใช้งานของการออกแบบ:

    • การปฏิบัติตามโปรโตคอลข้อผิดพลาดในการวัดการจัดการข้อมูล ...
  3. คุณภาพของแบบจำลองที่สะท้อนการออกแบบได้อย่างแม่นยำ:

    • โครงสร้างการบล็อกถูกแสดงอย่างถูกต้องระดับความอิสระที่เหมาะสมสัมพันธ์กับเอฟเฟกต์ตัวประมาณจะไม่เอนเอียง ...

เมื่อมีความเสี่ยงที่จะระบุสิ่งที่ชัดเจนฉันจะพยายามตีประเด็นสำคัญของแต่ละเรื่อง:

  1. เป็นฟิลด์ย่อยของสถิติที่มีขนาดใหญ่ แต่ในรูปแบบพื้นฐานที่สุดฉันคิดว่ามันมาจากความจริงที่ว่าเมื่อทำการอนุมานเชิงสาเหตุเราเริ่มจากหน่วยที่เหมือนกันซึ่งถูกตรวจสอบในสภาพแวดล้อมที่เหมือนกันนอกเหนือไปจากการรักษา ความแตกต่างอย่างเป็นระบบระหว่างกลุ่มหลังจากการคัดเลือกนั้นมีเหตุผลเนื่องมาจากการรักษา (เราสามารถอนุมานสาเหตุ) แต่โลกไม่ดีและหน่วยแตกต่างกันก่อนการรักษาและ evironments ในระหว่างการทดลองไม่ได้ควบคุมอย่างสมบูรณ์ ดังนั้นเราจึง "ควบคุมสิ่งที่เราทำได้และสุ่มสิ่งที่เราทำไม่ได้" ซึ่งช่วยให้มั่นใจได้ว่าจะไม่มีอคติอย่างเป็นระบบเนื่องจากคนที่สับสนที่เราควบคุมหรือสุ่มตัวอย่าง ปัญหาหนึ่งคือการทดลองมีแนวโน้มที่จะยาก (เป็นไปไม่ได้) และมีราคาแพงและการออกแบบที่หลากหลายได้รับการพัฒนาเพื่อดึงข้อมูลได้อย่างมีประสิทธิภาพมากที่สุดเท่าที่จะเป็นไปได้ในการตั้งค่าอย่างระมัดระวังที่สุดเท่าที่จะทำได้ สิ่งเหล่านี้บางอย่างค่อนข้างเข้มงวด (เช่นในทางการแพทย์การทดลองแบบ double-blind, randomized, placebo-controlled) และอื่น ๆ น้อยกว่าเช่นนั้น (เช่น 'การทดลองกึ่งทดลอง' ในรูปแบบต่างๆ)

  2. ยังเป็นปัญหาใหญ่และเป็นเรื่องที่นักสถิติโดยทั่วไปไม่ได้คิด ... ถึงแม้ว่าเราควรจะ ในงานสถิติประยุกต์ฉันสามารถระลึกถึงเหตุการณ์ที่ 'ผลกระทบ' ที่พบในข้อมูลนั้นเป็นผลลัพธ์ที่น่าเกรงขามของความไม่สอดคล้องกันของการรวบรวมข้อมูลหรือการจัดการ ฉันยังสงสัยว่าข้อมูลเกี่ยวกับผลกระทบเชิงสาเหตุที่แท้จริงของความสนใจหายไปบ่อยแค่ไหนเนื่องจากปัญหาเหล่านี้ (ฉันเชื่อว่านักเรียนในสาขาวิทยาศาสตร์ประยุกต์มักจะมีการฝึกอบรมแบบไม่ต้องมีใครเกี่ยวกับวิธีการที่ข้อมูลอาจเสียหายได้ ... )

  3. เป็นอีกเรื่องทางเทคนิคขนาดใหญ่และอีกขั้นตอนที่จำเป็นในการอนุมานสาเหตุวัตถุประสงค์ ในระดับหนึ่งสิ่งนี้ได้รับการดูแลเพราะฝูงชนด้านการออกแบบพัฒนาการออกแบบและแบบจำลองร่วมกัน (เนื่องจากการอนุมานจากแบบจำลองคือเป้าหมายคุณลักษณะของตัวออกแบบตัวประเมินไดรฟ์) แต่สิ่งนี้ทำให้เราได้รับเพียงเพราะใน 'โลกแห่งความจริง' เราสิ้นสุดการวิเคราะห์ข้อมูลการทดลองจากการออกแบบที่ไม่ใช่ตำราและจากนั้นเราต้องคิดอย่างหนักเกี่ยวกับสิ่งต่าง ๆ เช่นการควบคุมที่เหมาะสมและวิธีที่พวกเขาควรจะเข้าสู่แบบจำลอง ควรมีเสรีภาพหรือไม่และหากพบว่ามีการปรับเปลี่ยนวิธีการฝ่าฝืนหรือไม่หากพบว่ามีการฝ่าฝืนหรือไม่

อย่างไรก็ตามหวังว่าสิ่งที่กล่าวมาข้างต้นช่วยในการคิดเกี่ยวกับการพิจารณาในการอนุมานเชิงสาเหตุจากแบบจำลอง ฉันลืมสิ่งที่ยิ่งใหญ่หรือไม่?


3
ข้อดีอย่างมากสำหรับจุดที่ 2 นอกเหนือจากการผ่านการฝึกอบรมการป้องกันเรื่องมนุษย์ฉันไม่เคยได้รับการฝึกอบรมเกี่ยวกับการเก็บรวบรวมและการจัดเก็บข้อมูลที่น้อยที่สุด การรวบรวมข้อมูลให้ถูกต้องนั้นมีความสำคัญมากกว่าการวิเคราะห์อย่างมาก
Matt Parker

ฉันก็ชอบที่จะตอบเช่นกัน แต่ฉันเกรงว่าจะไม่มีอะไรเหลือให้เพิ่มเติมในสิ่งที่ Kingsford พูด
Joris Meys

7

นอกจากคำตอบที่ดีเลิศข้างต้นแล้วยังมีวิธีการทางสถิติที่จะช่วยให้คุณใกล้ชิดกับการแสดงให้เห็นถึงเวรกรรม มันเป็น Granger Causality ที่แสดงให้เห็นว่าหนึ่งตัวแปรอิสระที่เกิดขึ้นก่อนที่ตัวแปรตามมีผลเชิงสาเหตุหรือไม่ ฉันแนะนำวิธีนี้ในการนำเสนอที่ง่ายต่อการติดตามได้ที่ลิงค์ต่อไปนี้:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

ฉันยังใช้วิธีนี้ในการทดสอบทฤษฎีเศรษฐศาสตร์มหภาคที่แข่งขัน: http://www.slideshare.net/gaetanlion/economic-theory-testing-presentation

โปรดทราบว่าวิธีนี้ไม่สมบูรณ์ เป็นการยืนยันว่ามีเหตุการณ์บางอย่างเกิดขึ้นก่อนเหตุการณ์อื่นและเหตุการณ์เหล่านั้นมีความสัมพันธ์ในทิศทางที่สอดคล้องกัน สิ่งนี้ดูเหมือนว่าจะนำมาซึ่งความเป็นเหตุเป็นผลที่แท้จริง การเรียกไก่ตอนเช้าไม่ทำให้ดวงอาทิตย์ขึ้น


4

แบบจำลองทางสถิติสามารถพูดเกี่ยวกับสาเหตุได้อย่างไร ข้อควรพิจารณาอะไรควรทำเมื่อทำการอนุมานเชิงสาเหตุจากแบบจำลองทางสถิติ

สิ่งแรกที่ต้องทำให้ชัดเจนคือคุณไม่สามารถอนุมานสาเหตุได้จากโมเดลเชิงสถิติอย่างหมดจด แบบจำลองทางสถิติไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้โดยไม่มีข้อสันนิษฐานสาเหตุ นั่นคือการที่จะทำให้การอนุมานสาเหตุที่คุณต้องรุ่นสาเหตุ

แม้ในบางสิ่งที่ถือว่าเป็นมาตรฐานทองคำเช่นการทดลองควบคุมแบบสุ่ม (RCT) คุณจำเป็นต้องตั้งสมมติฐานเชิงสาเหตุเพื่อดำเนินการต่อ ให้ฉันทำให้ชัดเจน ตัวอย่างเช่นสมมติว่าคือขั้นตอนการสุ่มตัวอย่างคือการรักษาที่น่าสนใจและคือผลลัพธ์ของดอกเบี้ย เมื่อสมมติว่า RCT สมบูรณ์แบบนี่คือสิ่งที่คุณสมมติ:ZXY

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีนี้ดังนั้นทุกอย่างทำงานได้ดี แต่สมมติว่าคุณมีการปฏิบัติที่ไม่สมบูรณ์ส่งผลให้ความสัมพันธ์ระหว่างอดสูและYจากนั้นตอนนี้ RCT ของคุณจะเป็นดังนี้:P(Y|do(X))=P(Y|X)XY

ป้อนคำอธิบายรูปภาพที่นี่

คุณยังคงสามารถทำการวิเคราะห์ต่อไปได้ แต่ถ้าคุณต้องการประเมินผลกระทบที่เกิดขึ้นจริงของ Things นั้นไม่ใช่เรื่องง่ายอีกต่อไป นี่คือการตั้งค่าตัวแปรที่มีประโยชน์และคุณอาจจะสามารถที่จะถูกผูกไว้หรือแม้กระทั่งการชี้แจ้งผลกระทบถ้าคุณทำพาราบางสมมติฐานX

สิ่งนี้จะซับซ้อนยิ่งขึ้น คุณอาจมีปัญหาข้อผิดพลาดการวัดวิชาอาจวางการศึกษาหรือไม่ปฏิบัติตามคำแนะนำในหมู่ปัญหาอื่น ๆ คุณจะต้องตั้งสมมติฐานว่าสิ่งเหล่านั้นเกี่ยวข้องกับขั้นตอนการอนุมานอย่างไร ด้วยข้อมูลเชิงสังเกต "หมดจด" สิ่งนี้อาจเป็นปัญหาได้มากกว่าเพราะโดยทั่วไปแล้วนักวิจัยจะไม่มีความคิดที่ดีเกี่ยวกับกระบวนการสร้างข้อมูล

ดังนั้นในการวาดการอนุมานเชิงสาเหตุจากแบบจำลองคุณจำเป็นต้องตัดสินไม่เพียง แต่สมมติฐานทางสถิติเท่านั้น แต่ที่สำคัญที่สุดคือข้อสมมติฐานเชิงสาเหตุ นี่คือภัยคุกคามที่พบบ่อยในการวิเคราะห์เชิงสาเหตุ:

  • ข้อมูลไม่สมบูรณ์ / ไม่แน่นอน
  • เป้าหมายปริมาณความสนใจเชิงสาเหตุไม่ได้กำหนดไว้อย่างชัดเจน (อะไรคือสาเหตุเชิงสาเหตุที่คุณต้องการระบุอะไรประชากรเป้าหมายคืออะไร)
  • Confounding (confounders ที่ไม่ได้สังเกต)
  • การเลือกอคติ (การเลือกด้วยตนเองตัวอย่างที่ถูกตัด)
  • ข้อผิดพลาดการวัด (ที่สามารถทำให้เกิดการรบกวนไม่เพียง แต่เสียงรบกวน)
  • การระบุผิดพลาด (เช่นแบบฟอร์มการทำงานผิด)
  • ปัญหาความถูกต้องภายนอก (การอนุมานผิดกับประชากรเป้าหมาย)

บางครั้งการเรียกร้องการขาดงานของปัญหาเหล่านี้ (หรือการเรียกร้องให้แก้ไขปัญหาเหล่านี้) สามารถสำรองได้โดยการออกแบบการศึกษาเอง นั่นเป็นเหตุผลว่าทำไมข้อมูลการทดลองจึงมีความน่าเชื่อถือมากกว่า อย่างไรก็ตามในบางครั้งผู้คนจะเข้าใจถึงปัญหาเหล่านี้ไม่ว่าจะด้วยทฤษฎีหรือเพื่อความสะดวก ถ้าทฤษฎีนุ่ม (เหมือนในสังคมศาสตร์) มันจะยากกว่าที่จะหาข้อสรุปที่มูลค่า

เมื่อใดก็ตามที่คุณคิดว่ามีข้อสันนิษฐานที่ไม่สามารถสำรองข้อมูลได้คุณควรประเมินว่าข้อสรุปที่ละเอียดอ่อนนั้นเป็นการละเมิดสมมติฐานที่น่าเชื่อถือได้หรือไม่ซึ่งมักเรียกว่าการวิเคราะห์ความอ่อนไหว


มันจะเทียบเท่ากับการแทนที่ลูกศรสองทิศทางประด้วยลูกศรทึบหนึ่งทิศทางจากโหนดเพิ่มเติมหรือไม่
เทย์เลอร์

@Taylor ใช่โหนดเพิ่มเติมแฝง (ไม่ได้ตรวจสอบ)
Carlos Cinelli
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.