จากมุมมองทางสถิติเราสามารถอนุมานสาเหตุของการใช้คะแนนความชอบด้วยการศึกษาเชิงสังเกตการณ์ได้หรือไม่?


27

คำถาม:จากมุมมองของนักสถิติ (หรือผู้ประกอบการ) เราสามารถอนุมานสาเหตุที่เป็นเหตุเป็นผลโดยใช้คะแนนความชอบด้วยการศึกษาเชิงสังเกตการณ์ ( ไม่ใช่การทดลอง ) ได้หรือไม่

กรุณาอย่าต้องการที่จะเริ่มสงครามเปลวไฟหรือการอภิปรายที่คลั่ง

ที่มา:ภายในโปรแกรมปริญญาเอกสถิติของเราเราได้เพียงสัมผัสในการอนุมานสาเหตุผ่านกลุ่มการทำงานและช่วงหัวข้อไม่กี่ อย่างไรก็ตามมีนักวิจัยที่โดดเด่นบางคนในแผนกอื่น ๆ (เช่น HDFS, สังคมวิทยา) ที่ใช้งานพวกเขาอย่างแข็งขัน

ฉันได้เห็นการถกเถียงที่ค่อนข้างร้อนแรงในเรื่องนี้ ฉันไม่ได้ตั้งใจที่จะเริ่มที่นี่ ที่กล่าวว่าสิ่งที่คุณได้พบอ้างอิง? คุณมีมุมมองอะไร ตัวอย่างเช่นข้อโต้แย้งหนึ่งที่ฉันเคยได้ยินเกี่ยวกับคะแนนความชอบในฐานะที่เป็นเทคนิคการอนุมานเชิงสาเหตุคือไม่มีใครสามารถอนุมานสาเหตุเวรกรรมได้เนื่องจากการละเว้นตัวแปรอคติ - ถ้าคุณทิ้งอะไรที่สำคัญไปคุณก็เลิกโซ่สาเหตุ นี่เป็นปัญหาที่แก้ไขไม่ได้หรือไม่

ข้อความปฏิเสธความรับผิดชอบ:คำถามนี้อาจไม่มีคำตอบที่ถูกต้อง - เจ๋งมากเมื่อคลิก cw แต่โดยส่วนตัวแล้วฉันสนใจในการตอบกลับมากและจะมีความสุขกับการอ้างอิงที่ดีเพียงไม่กี่ข้อซึ่งรวมถึงตัวอย่างจริง

คำตอบ:


16

ในตอนต้นของบทความที่มุ่งส่งเสริมการใช้ PSs ในระบาดวิทยาเคสและคริสตจักร (1) อ้างว่าHernánและ Robins อ้างว่าการอ้างถึงผลกระทบที่ทำให้สับสนในการระบาดวิทยา (2):

คุณสามารถรับประกันได้หรือไม่ว่าผลลัพธ์จากการศึกษาเชิงสังเกตการณ์ของคุณไม่ได้รับผลกระทบจากการรบกวนที่ไม่ได้วัดผล? คำตอบเดียวที่นักระบาดวิทยาสามารถให้ได้คือ 'ไม่'

นี่ไม่เพียง แต่จะบอกว่าเราไม่สามารถรับประกันได้ว่าผลลัพธ์จากการศึกษาเชิงสังเกตการณ์นั้นไม่เอนเอียงหรือไร้ประโยชน์ (เพราะอย่างที่ @propofol กล่าวว่าผลลัพธ์ของพวกเขาจะมีประโยชน์สำหรับการออกแบบ RCT) แต่ PSS ไม่ได้นำเสนอโซลูชั่นที่สมบูรณ์ ปัญหาหรืออย่างน้อยก็ไม่จำเป็นต้องให้ผลลัพธ์ที่ดีกว่าวิธีการจับคู่หรือหลายตัวแปรอื่น ๆ (ดูเช่น (10))

คะแนนความน่าจะเป็น (PS) โดยการสร้างความน่าจะเป็นไม่ใช่ตัวบ่งชี้สาเหตุ ทางเลือกของตัวแปรที่ใส่ฟังก์ชั่นคะแนนนิสัยชอบเป็นองค์ประกอบสำคัญในการตรวจสอบความน่าเชื่อถือและความอ่อนแอของพวกเขาตามที่ได้รับการกล่าวว่าส่วนใหญ่ยืนจากการไม่ควบคุมตัวแปรที่ไม่มีใครสังเกต (ซึ่งมีแนวโน้มในการย้อนหลังหรือกรณีการควบคุมการศึกษา) . ปัจจัยอื่น ๆ ที่ต้องนำมาพิจารณา: (a) การสะกดผิดแบบจำลองจะส่งผลกระทบต่อการประเมินผลกระทบโดยตรง (ไม่มากไปกว่าในกรณี OLS), (b) อาจมีข้อมูลที่ขาดหายไปในระดับของ covariates (c) PSs ทำ ไม่เอาชนะผลเสริมฤทธิ์กันซึ่งรู้ว่ามีผลต่อการตีความเชิงสาเหตุ (8,9)

สำหรับการอ้างอิงฉันพบสไลด์ของ Roger Newson - Causality, confounders และคะแนนความชอบ - ค่อนข้างสมดุลเกี่ยวกับข้อดีและข้อเสียของการใช้คะแนนความชอบด้วยภาพประกอบจากการศึกษาจริง นอกจากนี้ยังมีเอกสารที่ดีหลายฉบับที่พูดถึงการใช้คะแนนความชอบในการศึกษาเชิงสังเกตการณ์หรือระบาดวิทยาสิ่งแวดล้อมเมื่อสองปีก่อนในสถิติทางการแพทย์และฉันแนบพวกเขาสองคนในตอนท้าย (3-6) แต่ฉันชอบบทวิจารณ์ของ Pearl (7) เพราะมันมีมุมมองที่กว้างขึ้นเกี่ยวกับปัญหาด้านเวรกรรม (PSs กล่าวถึงหน้า 117 และ 130) เห็นได้ชัดว่าคุณจะพบภาพประกอบเพิ่มเติมอีกมากมายโดยดูที่การวิจัยประยุกต์ ฉันต้องการเพิ่มสองบทความล่าสุดจาก William R Shadish ที่มาในเว็บไซต์ของ Andrew Gelman (11,12) การใช้คะแนนความชอบมีการกล่าวถึง แต่เอกสารทั้งสองเน้นที่การอนุมานเชิงสาเหตุในการศึกษาเชิงสังเกตการณ์ (และเปรียบเทียบกับการตั้งค่าแบบสุ่ม)

อ้างอิง

  1. Oakes, JM และ Church, TR (2007) เชิญอรรถกถา: Advancing นิสัยชอบวิธีคะแนนระบาดวิทยา วารสารระบาดวิทยาอเมริกัน , 165 (10), 1119-1121
  2. Hernan MA และ Robins JM (2006) เครื่องมือสำหรับการอนุมานสาเหตุ: ความฝันของนักระบาดวิทยา? ระบาดวิทยา , 17, 360-72
  3. Rubin, D. (2007) เมื่อเทียบกับการออกแบบการวิเคราะห์การศึกษาเชิงสำหรับผลกระทบเชิงสาเหตุ: Parallels กับการออกแบบการทดลองสุ่ม สถิติทางการแพทย์ , 26, 20–36
  4. Shrier, I. (2008) จดหมายถึงบรรณาธิการ สถิติทางการแพทย์ , 27, 2740–2741
  5. ไข่มุกเจ (2552) ข้อสังเกตเกี่ยวกับวิธีการของคะแนนนิสัยชอบ สถิติทางการแพทย์ , 28, 1415–1424
  6. Stuart, EA (2008) พัฒนาคำแนะนำการปฏิบัติสำหรับการใช้คะแนนนิสัยชอบ: คำอธิบายของการประเมินที่สำคัญของการจับคู่คะแนนเอนเอียงในวรรณกรรมทางการแพทย์ระหว่างปี 1996 และ 2003 โดยปีเตอร์ออสติน สถิติทางการแพทย์ , 27, 2062–2065
  7. ไข่มุกเจ (2552) สาเหตุอนุมานในสถิติ: ภาพรวม การสำรวจสถิติ , 3, 96-146
  8. เคส JM และ Johnson, PJ (2006) นิสัยชอบจับคู่คะแนนระบาดวิทยาทางสังคม ในวิธีการทางระบาดวิทยาทางสังคม JM Oakes และ S. Kaufman (Eds.), pp. 364-386 Jossez เบส
  9. Höfler, M (2005) อนุมานสาเหตุอยู่บนพื้นฐานของ counterfactuals วิธีการวิจัยทางการแพทย์ของ BMC , 5, 28
  10. Winkelmayer, สุขาและ Kurth, T. (2004) คะแนนความน่าเชื่อถือ: ช่วยหรือโฆษณา การปลูกถ่ายไตเพื่อการฟอกไต , 19 (7), 1671-1673
  11. Shadish, WR, Clark, MH, และ Steiner, PM (2008) การทดสอบที่ไม่มีการสุ่มตัวอย่างให้คำตอบที่ถูกต้องหรือไม่? การทดลองแบบสุ่มเปรียบเทียบสุ่มและ nonrandom ที่ได้รับมอบหมาย JASA , 103 (484), 1334-1356
  12. Cook, TD, Shadish, WR และ Wong, VC (2008) เงื่อนไขสามภายใต้การทดลองและการสังเกตการศึกษาผลิตประมาณการสาเหตุเทียบเคียง: ค้นพบใหม่จากภายในการศึกษาเปรียบเทียบ วารสารวิเคราะห์นโยบายและการจัดการ , 27 (4), 724–750

11

คะแนนความชอบมักใช้ในวรรณคดีที่ตรงกัน คะแนนความน่าเชื่อถือใช้ค่าการรักษาเบื้องต้นเพื่อประเมินความน่าจะเป็นที่ได้รับการรักษา โดยพื้นฐานแล้วการถดถอย (ไม่ว่าจะเป็น OLS ปกติหรือ logit, probit ฯลฯ ) จะใช้ในการคำนวณคะแนนความชอบด้วยการรักษาเนื่องจากผลลัพธ์ของคุณและตัวแปรก่อนการรักษาเป็นตัวแปรร่วมของคุณ เมื่อได้รับคะแนนความชอบที่ดีแล้วผู้เรียนที่มีคะแนนความชอบคล้าย ๆ กัน แต่ได้รับการรักษาที่แตกต่างกันจะได้รับการจับคู่กัน ผลการรักษาคือความแตกต่างของค่าเฉลี่ยระหว่างสองกลุ่มนี้

Rosenbaum และ Rubin (1983) แสดงให้เห็นว่าการจับคู่อาสาสมัครที่ได้รับการรักษาและควบคุมโดยใช้คะแนนความชอบนั้นเพียงพอที่จะลบอคติทั้งหมดในการประเมินผลการรักษาที่เกิดจาก covariates ก่อนการรักษาที่สังเกตเห็นเพื่อสร้างคะแนน โปรดทราบว่าการพิสูจน์นี้ต้องใช้คะแนนความชอบจริงมากกว่าการประมาณ ข้อดีของวิธีการนี้คือเปลี่ยนปัญหาของการจับคู่ในหลายมิติ (หนึ่งสำหรับแต่ละตัวแปรก่อนการรักษา) เป็นกรณีจับคู่ univariate --- การทำให้เข้าใจง่ายมาก

Rosenbaum, Paul R. และ Donald B. Rubin 2526 ได้ " บทบาทสำคัญของคะแนนความชอบในการศึกษาเพื่อสังเกตผลกระทบ " Biometrika 70 (1): 41--55


8

เฉพาะการทดลองใช้แบบสุ่มในอนาคตสามารถกำหนดสาเหตุ ในการศึกษาเชิงสังเกตมักจะมีโอกาสเกิดภาวะแปรปรวนร่วมที่ไม่ทราบค่าหรือไม่ทราบซึ่งทำให้ไม่สามารถระบุเหตุผลได้

อย่างไรก็ตามการทดลองเชิงสังเกตการณ์สามารถให้หลักฐานของความสัมพันธ์ที่แน่นแฟ้นระหว่าง x และ y และดังนั้นจึงมีประโยชน์สำหรับการสร้างสมมุติฐาน สมมติฐานเหล่านี้จำเป็นต้องได้รับการยืนยันด้วยการทดลองแบบสุ่ม


ฉันเห็นด้วยกับคุณอย่างเต็มที่ การศึกษาเชิงสังเกตการณ์อาจเป็นการดีที่จะเปิดเผยความสัมพันธ์บางอย่างที่ในทางกลับกันสามารถทดสอบโดยใช้กรอบที่เข้มงวดมากขึ้น (การทดลองแบบสุ่มตามที่คุณแนะนำ)
Sympa

นิพจน์เรียบร้อย ไม่สามารถเห็นด้วยกับคุณมากขึ้นด้วยคำว่า 'แข็งแรง' การเชื่อมโยงระหว่าง x และ y
Kevin Kang

7

คำถามดูเหมือนจะเกี่ยวข้องกับสองสิ่งที่ควรพิจารณาแยกต่างหาก ข้อแรกคือว่าจะมีใครสามารถอนุมานสาเหตุจากการศึกษาเชิงสังเกตการณ์และคุณอาจเปรียบเทียบมุมมองของไข่มุก (2009) ซึ่งระบุว่าใช่ตราบใดที่คุณสามารถจำลองกระบวนการอย่างถูกต้องกับมุมมอง @ propofol ใครจะ ค้นหาพันธมิตรจำนวนมากในสาขาการทดลองและผู้ที่อาจแบ่งปันความคิดบางส่วนที่แสดงในบทความเรียงความ (ค่อนข้างชัดเจน แต่ก็ยังดี) โดย Gerber et al (2004) ประการที่สองสมมติว่าคุณคิดว่าสาเหตุเวรกรรมสามารถอนุมานได้จากข้อมูลเชิงสังเกตการณ์คุณอาจสงสัยว่าวิธีคะแนนความชอบมีประโยชน์ในการทำเช่นนั้นหรือไม่ วิธีการให้คะแนนความชอบรวมถึงกลยุทธ์การปรับเงื่อนไขต่างๆ บทวิจารณ์ที่ดีได้รับจาก Lunceford และ Davidian (2004)

รอยย่นเล็กน้อย: การจับคู่คะแนนความชอบและน้ำหนักยังใช้ในการวิเคราะห์การทดลองแบบสุ่มเมื่อเช่นมีความสนใจในการคำนวณ "ผลกระทบทางอ้อม" และเมื่อมีปัญหาของการขัดสีที่ไม่สุ่มหรือเลื่อนออก ( ในกรณีนี้สิ่งที่คุณมีลักษณะคล้ายกับการศึกษาเชิงสังเกตการณ์)

อ้างอิง

Gerber A และอื่น ๆ 2547. "ภาพลวงตาของการเรียนรู้จากการวิจัยเชิงสังเกตการณ์" ใน Shapiro I, et al, ปัญหาและวิธีการในการศึกษาการเมือง , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

Lunceford JK, Davidian M. 2004 "การแบ่งชั้นและน้ำหนักผ่านคะแนนความชอบในการประเมินผลการรักษาเชิงสาเหตุ: การศึกษาเปรียบเทียบ" สถิติทางการแพทย์ 23 (19): 2937–2960

Pearl J. 2009. เวรกรรม (2nd Ed.) , Cambridge University Press


ดีที่คุณอ้างอิงหนังสือทั้งเล่มจาก Pearl
chl

0

ภูมิปัญญาดั้งเดิมระบุว่ามีเพียงการทดลองควบคุมแบบสุ่ม (การทดลอง "ของจริง") เท่านั้นที่สามารถระบุสาเหตุได้

อย่างไรก็ตามมันไม่ง่ายอย่างที่คิด

เหตุผลหนึ่งที่การสุ่มตัวอย่างอาจไม่เพียงพอนั่นคือในตัวอย่าง "เล็ก" กฎหมายจำนวนมากไม่ได้ "แข็งแกร่งเพียงพอ" เพื่อให้แน่ใจว่าความแตกต่างแต่ละอย่างมีความสมดุล คำถามคืออะไร "เล็กเกินไป" และเมื่อเริ่ม "ใหญ่พอ" คืออะไร? Saint-Mont (2015) ให้เหตุผลที่นี่ว่า "ใหญ่พอ" อาจเริ่มในพัน (n> 1,000)!

หลังจากทั้งหมดจุดคือการสมดุลความแตกต่างระหว่างกลุ่มเพื่อควบคุมความแตกต่าง ดังนั้นแม้ในการทดลองควรใช้ความระมัดระวังเป็นพิเศษเพื่อสร้างสมดุลระหว่างความแตกต่างระหว่างกลุ่ม จากการคำนวณของ Saint-Mont (2015) อาจเป็นไปได้ว่าในตัวอย่างขนาดเล็กเราสามารถทำได้ดีกว่าตัวอย่างที่จับคู่

ตามความน่าจะเป็น แน่นอนความน่าจะเป็นไม่สามารถให้คำตอบที่เป็นข้อสรุปได้ยกเว้นว่าความน่าจะเป็นนั้นรุนแรงมาก อย่างไรก็ตามในทางวิทยาศาสตร์เราพบว่าตัวเองต้องเผชิญกับสถานการณ์บ่อยครั้งเพราะเราไม่สามารถให้คำตอบที่สรุปได้ ดังนั้นความต้องการความน่าจะเป็น ความน่าจะเป็นไม่มีอะไรมากไปกว่าการแสดงความไม่แน่นอนของเราในแถลงการณ์ เช่นนี้มันคล้ายกับตรรกะ ดูบริกส์ (2016) ที่นี่

ดังนั้นความน่าจะเป็นที่จะช่วยเรา แต่จะไม่ให้คำตอบที่แน่นอนไม่มีความแน่นอน แต่มันมีประโยชน์อย่างมาก - เพื่อแสดงความไม่แน่นอน

โปรดทราบด้วยว่าสาเหตุหลักไม่ใช่คำถามเชิงสถิติ สมมติว่าสองวิธีแตกต่างกันอย่างมีนัยสำคัญ ไม่ได้หมายความว่าตัวแปรการจัดกลุ่มเป็นสาเหตุของความแตกต่างในตัวแปรที่วัดได้หรือไม่? ไม่ (ไม่จำเป็น) ไม่ว่าสถิติใดที่ใช้อย่างใดอย่างหนึ่ง - คะแนนความชอบ, ค่า p, ปัจจัยเบส์และอื่น ๆ - วิธีการเช่นนี้ (ในทางปฏิบัติ) ไม่เพียงพอที่จะสำรองข้อมูลการเรียกร้องเชิงสาเหตุ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.