unoundoundedness ในรูปแบบสาเหตุของรูบิน - คำอธิบายของคนธรรมดา


13

เมื่อใช้โมเดลเชิงสาเหตุของรูบินหนึ่งในข้อสมมติฐานที่ไม่สามารถพิสูจน์ได้ที่เราต้องการคือ unoundounded ซึ่งหมายความว่า

(Y(0),Y(1))T|X

ในกรณีที่ LHS เป็นสิ่งกีดขวาง T คือการรักษาและ X คือโควาเรียตที่เราควบคุม

ฉันสงสัยว่าจะอธิบายเรื่องนี้อย่างไรกับคนที่ไม่ค่อยรู้อะไรเกี่ยวกับแบบจำลองสาเหตุรูบิน ฉันเข้าใจว่าทำไมเราถึงต้องการสมมติฐานนี้ในทางทฤษฎี แต่ฉันไม่แน่ใจเกี่ยวกับแนวคิดว่าทำไมสิ่งนี้ถึงสำคัญ โดยเฉพาะอย่างยิ่งถ้า T คือการรักษาผลที่อาจเกิดขึ้นจะขึ้นอยู่กับมันหรือไม่? เช่นกันถ้าเรามีสุ่มทดลองแล้วโดยอัตโนมัติT ทำไมสิ่งนี้ถึงเป็นจริง?(Y(0),Y(1))T

คุณจะอธิบายข้อสมมติฐานที่ไร้เหตุผล / ความเพิกเฉยต่อคนที่ไม่ได้ศึกษา RCM อย่างไร


สำหรับการจับคู่คะแนนความชอบก่อนอื่นมันง่ายที่จะพิสูจน์ว่าการแจกแจงแบบมีเงื่อนไข X | T=1,p(X)=q เกิดขึ้นพร้อมกับการกระจายแบบมีเงื่อนไขของ X | T=0,p(X)=q. ดังนั้น unconfoundedness / ignorability จึงมีความหมายว่า(Y(0),Y(1))  T | p(X). สำหรับการทดลองแบบสุ่มTจะต้องเป็นอิสระจากตัวแปรอื่น ๆ ที่เข้าร่วมในการทดลอง
Viktor

คำตอบ:


12

คุณจะอธิบายข้อสมมติฐานที่ไร้เหตุผล / ความเพิกเฉยต่อคนที่ไม่ได้ศึกษา RCM อย่างไร

เกี่ยวกับสัญชาตญาณของใครบางคนที่ไม่มีประสบการณ์ในการอนุมานสาเหตุฉันคิดว่านี่เป็นที่ที่คุณสามารถใช้กราฟ พวกเขามีสัญชาตญาณในแง่ที่ว่าพวกเขาแสดง "การไหล" อย่างเห็นได้ชัดและพวกเขาจะทำให้ชัดเจนว่าการเพิกเฉยอย่างมีนัยสำคัญหมายถึงอะไรในโลกแห่งความจริง

เงื่อนไขการเพิกเฉยเทียบเท่ากับการอ้างสิทธิ์ Xเป็นไปตามเกณฑ์ลับๆ ดังนั้นในแง่ที่เข้าใจง่ายคุณสามารถพูดกับคนที่พวกโควาเรียตที่คุณเลือกX "บล็อก" ผลของสาเหตุทั่วไปของ T และ Y (และไม่เปิดการเชื่อมโยงปลอมอื่น ๆ )

หากตัวแปรที่รบกวนเท่านั้นที่เป็นไปได้ของปัญหาของคุณคือตัวแปรที่อยู่บน Xตัวเองแล้วนี่เป็นเรื่องเล็กน้อยที่จะอธิบาย คุณเพียงแค่พูดอย่างนั้นตั้งแต่X contais ทั้งหมดสาเหตุทั่วไปของทั้งสอง T และ Yนั่นคือทั้งหมดที่คุณต้องควบคุม ดังนั้นคุณสามารถพูดกับเธอว่าคุณเห็นโลก:

ป้อนคำอธิบายรูปภาพที่นี่

กรณีที่น่าสนใจคือเมื่อมีคนน่าเชื่อถือคนอื่น ๆ หากต้องการเจาะจงมากขึ้นคุณอาจขอให้บุคคลนั้นตั้งชื่อคนที่อาจเป็นปัญหาของคุณได้นั่นคือขอให้เธอตั้งชื่อสิ่งที่ทำให้ทั้งคู่T และ Yแต่มันไม่ได้อยู่ในนั้น X.

สมมติว่าบุคคลตั้งชื่อตัวแปร Z. จากนั้นคุณสามารถพูดกับบุคคลนั้นว่าสิ่งที่คุณคิดว่าการเพิกเฉยต่อเงื่อนไขอย่างมีประสิทธิภาพหมายถึงสิ่งที่คุณคิดX จะ "ปิดกั้น" ผลกระทบของ Z บน T และ / หรือ Y.

และคุณควรให้เหตุผลที่สำคัญแก่เธอว่าทำไมคุณคิดว่าจริง มีกราฟจำนวนมากที่สามารถเป็นตัวแทนได้ แต่บอกว่าคุณจะได้คำอธิบายนี้: "Z จะไม่อคติผลลัพธ์เพราะแม้ว่า Z สาเหตุ T และ Yผลกระทบต่อ T ผ่านเท่านั้น Xซึ่งเราควบคุมสำหรับ "จากนั้นแสดงกราฟนี้:

ป้อนคำอธิบายรูปภาพที่นี่

และคุณสามารถคิดถึงผู้ร่วมก่อตั้งคนอื่นและแสดงให้เธอเห็นได้อย่างไร X กำลังปิดกั้นพวกเขาในกราฟ

ตอนนี้ตอบคำถามเชิงแนวคิด:

โดยเฉพาะอย่างยิ่งถ้า T คือการรักษาผลที่อาจเกิดขึ้นจะขึ้นอยู่กับมันหรือไม่? เช่นกันถ้าเรามีการทดลองแบบสุ่มควบคุมโดยอัตโนมัติแล้ว ทำไมสิ่งนี้ถึงเป็นจริง?

ไม่คิด Tตามที่ได้รับมอบหมายการรักษา สิ่งที่กล่าวคือคุณกำลังกำหนดให้การรักษากับคน "ไม่สนใจ" ว่าพวกเขาตอบสนองต่อการรักษาอย่างไร การละเมิดข้อนี้จะทำให้คุณได้รับผลประโยชน์จากการรักษามากที่สุด

นั่นเป็นสาเหตุที่สิ่งนี้ถือโดยอัตโนมัติเมื่อคุณสุ่มเลือก หากคุณเลือกการรักษาแบบสุ่มหมายความว่าคุณไม่ได้ตรวจสอบการตอบสนองที่เป็นไปได้ของการรักษาเพื่อเลือกพวกเขา


เพื่อเติมเต็มคำตอบมันก็คุ้มค่าที่จะสังเกตเห็นว่าการเข้าใจความไม่เข้าใจโดยไม่ต้องพูดถึงกระบวนการเชิงสาเหตุนั่นคือโดยไม่ต้องใช้สมการโครงสร้าง / ตัวแบบกราฟิกนั้นยากมาก เวลาส่วนใหญ่ที่คุณเห็นนักวิจัยที่สนใจความคิดของ "การรักษาเป็นแบบสุ่มถ้า" แต่โดยไม่ต้องพิสูจน์เหตุผลว่าทำไมหรือนั่นคือเหตุผลที่เป็นไปได้โดยใช้กลไกและกระบวนการในโลกแห่งความจริง

ในความเป็นจริงนักวิจัยหลายคนสันนิษฐานว่าไม่รู้ง่ายเพื่อความสะดวกเพื่อพิสูจน์การใช้วิธีการทางสถิติ บทความนี้จากJoffe, Yang และ Feldman paperพูดถึงความจริงที่ไม่สะดวกที่คนส่วนใหญ่รู้ แต่ไม่ได้พูดในระหว่างการนำเสนอการประชุม: "มักจะมีข้อสันนิษฐานที่ไม่สนใจเพราะพวกเขาใช้เหตุผลทางสถิติที่มีอยู่

แต่อย่างที่ฉันได้กล่าวไว้ในตอนต้นของคำตอบคุณสามารถใช้กราฟเพื่อโต้แย้งว่าการมอบหมายการรักษานั้นเป็นสิ่งที่ละเลยหรือไม่ ในขณะที่แนวคิดเรื่องความโง่เขลาของตัวเองนั้นยากที่จะเข้าใจเพราะมันแสดงการตัดสินเกี่ยวกับปริมาณของการปลอมแปลงในกราฟโดยทั่วไปแล้วคุณกำลังสร้างข้อความเชิงคุณภาพเกี่ยวกับกระบวนการเชิงสาเหตุ (ตัวแปรนี้ทำให้ตัวแปรนั้นเป็นต้น) ซึ่งง่ายต่อการอธิบายและดึงดูดสายตา

ดังที่กล่าวไว้ในคำตอบก่อนหน้านี้มีความเท่าเทียมกันอย่างเป็นทางการระหว่างกราฟและผลลัพธ์ที่เป็นไปได้ ดังนั้นคุณสามารถอ่านผลลัพธ์ที่เป็นไปได้จากกราฟได้เช่นกัน ทำให้การเชื่อมต่อนี้เป็นทางการมากขึ้น (ดูเพิ่มเติมที่ Causality ของไข่มุก, หน้า 4343) คุณสามารถใช้คำจำกัดความต่อไปนี้: ผลลัพธ์ที่เป็นไปได้จะรวมถึงตัวแปรทั้งหมด (ข้อสังเกตและข้อผิดพลาด) ที่ส่งผลต่อ Y เมื่อ T คงที่ .

จากนั้นก็ง่ายที่จะเห็นว่าทำไมความเขลาใน RCT แต่ที่สำคัญกว่านั้นคือมันยังช่วยให้คุณสามารถสังเกตเห็นสถานการณ์ที่ไม่สามารถเพิกเฉยได้ง่าย ตัวอย่างเช่นในกราฟTXY, T สามารถข้ามได้ แต่ T ไม่สามารถข้ามได้เนื่องจาก X เนื่องจากเมื่อคุณมีเงื่อนไขใน X คุณจะเปิดพา ธ การชนจากเงื่อนไขข้อผิดพลาดของ X ถึง T

สรุปนักวิจัยหลายคนตั้งสมมติฐานความโง่เขลาโดยค่าเริ่มต้นเพื่อความสะดวก มันเป็นวิธีที่สะดวกในการสมมติความพอเพียงของชุดควบคุมโดยไม่จำเป็นต้องพิสูจน์เหตุผลอย่างเป็นทางการว่าทำไมถึงเป็นเช่นนั้น แต่เพื่ออธิบายความหมายในบริบทที่แท้จริงสำหรับคนธรรมดาสามัญคุณจะต้องเรียกใช้เรื่องราวเชิงสาเหตุนั่นคือสมมติฐานเชิงสาเหตุ และคุณสามารถเล่าเรื่องอย่างเป็นทางการด้วยความช่วยเหลือของกราฟเชิงสาเหตุ


8

ฉันคิดว่าคุณกำลังได้รับความแตกต่างระหว่างผลลัพธ์ที่เป็นไปได้ (Y0,Y1) และผลการสังเกต Y. หลังได้รับอิทธิพลอย่างมากจากการรักษา แต่เราหวังว่าคู่เดิมไม่ได้เป็นเช่นนั้น

นี่คือสัญชาตญาณ Xเพื่อความง่าย) เกี่ยวกับผลลัพธ์ที่สังเกตได้ สำหรับการสังเกตแต่ละครั้งผลลัพธ์ที่รับรู้สามารถแสดงเป็น

Y=TY1+(1-T)Y0.

ซึ่งหมายความว่า Y และ T ขึ้นอยู่กับเพราะค่าเฉลี่ยของ TY1 จะไม่เท่ากับค่าเฉลี่ย (1-T)Y0 (ตราบใดที่ผลการรักษาไม่เป็นศูนย์และการรักษาจะถูกสุ่ม / เพิกเฉย)

นี่คือสัญชาตญาณสำหรับส่วนที่สอง หากเรากำลังจะไปเรียนรู้เกี่ยวกับผลกระทบเชิงสาเหตุของTเราจะเปรียบเทียบข้อสังเกตที่ได้รับการรักษาและไม่ได้รับการรักษาในขณะที่รับความแตกต่าง Xเข้าบัญชี. เราสันนิษฐานว่ากลุ่มควบคุมนั้นเป็นของปลอมสำหรับกลุ่มการรักษาหากพวกเขาไม่ได้รับการรักษา แต่ถ้าผู้คนเลือกการรักษาของตนเองตามผลลัพธ์ที่เป็นไปได้ (หรือความคาดหวังเกี่ยวกับผลลัพธ์ที่เป็นไปได้) การเปรียบเทียบนี้คือแอปเปิ้ลกับลิงอุรังอุตัง เหมือนกับการทดลองทางการแพทย์ที่มีเพียงผู้ป่วยที่มีสุขภาพดีเลือกที่จะผ่าตัดเจ็บปวดเพราะมันคุ้มค่ากับราคา การเปรียบเทียบของเราจะมีการปนเปื้อนหากทางเลือกในการรักษาไม่สุ่มหลังจากปรับสภาพXตัวแปรที่ใช้วัดสถานะสุขภาพในปัจจุบันซึ่งควรสังเกตได้สำหรับแพทย์และผู้ป่วย) ตัวอย่างหนึ่งของตัวแปรที่ไม่สามารถสังเกตเห็นได้อาจมีคู่สมรสที่รักคุณมากดังนั้นเธอจึงขอให้คุณผ่าตัด แต่ก็ต้องแน่ใจว่าคุณได้ปฏิบัติตามคำแนะนำของแพทย์หลังการผ่าตัดY1ผล. ผลที่วัดได้ตอนนี้เป็นการผสมผสานระหว่างการผ่าตัดและการช่วยเหลือด้วยความรักซึ่งไม่ใช่สิ่งที่เราต้องการวัด ตัวอย่างที่ดีกว่าคือX ที่ได้รับผลกระทบจากการรักษาไม่ว่าจะเป็นโพสต์อดีตหรืออดีต ante ในความคาดหวังของการรักษา


ดูที่ส่วนที่คุณพูดว่า "ฉันคิดว่าคุณกำลังติดอยู่กับความแตกต่างระหว่างผลลัพธ์ที่เป็นไปได้ (Y0, Y1) และผลลัพธ์ที่สังเกต Y. หลังได้รับอิทธิพลอย่างมากจากการรักษา แต่เราหวังว่าคู่เดิมไม่ได้เป็นเช่นนั้น " สิ่งนี้สามารถตีความได้ว่า "ผลลัพธ์ที่สังเกตได้ขึ้นอยู่กับการรักษา แต่ภายใต้สมมติฐานว่างเปล่าที่ไม่มีผลการรักษาการรักษาไม่ควรมีอิทธิพลต่อผลลัพธ์ที่เป็นไปได้"? เหตุใดเราจึงหวังว่าผลลัพธ์ที่อาจเกิดขึ้นได้รับอิทธิพลจากการรักษา
RayVelcoro

1
@ RayVelcoro ไม่นั่นไม่ใช่วิธีที่ฉันจะใส่ ฉันจะบอกว่ารู้หรือไม่ว่ามีคนได้รับมอบหมายการรักษา (หรือเลือก) ไม่มีข้อมูลเกี่ยวกับผลลัพธ์ของเขาในกรณีที่ได้รับการรักษาและไม่ได้รับการรักษาเงื่อนไขใน Xs ของเขาและไม่มีข้อมูลเกี่ยวกับผลกระทบเชิงสาเหตุใด ๆY1-Y0. สิ่งนี้ไม่เกี่ยวข้องกับผลของการไม่มีศูนย์
Dimitriy V. Masterov

ฉันขอถามได้ไหมว่าทำไมค่าเฉลี่ยของ TY1 ไม่เท่ากับค่าเฉลี่ยของ (1-T)Y0 แสดงว่า Y และ Tขึ้นอยู่กับอะไร? ขอบคุณ
user321627

@ user321627 หากคุณคำนวณความแตกต่างในผลลัพธ์ที่สังเกตได้หมายถึงการรักษาและควบคุมมันควรจะชัดเจน
Dimitriy V. Masterov
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.