ไม่มีความขัดแย้งระหว่างโลกแห่งความเป็นจริงและการกระทำที่น่าสนใจในระดับแทรกแซง ตัวอย่างเช่นการสูบบุหรี่จนถึงทุกวันนี้และถูกบังคับให้เลิกสูบบุหรี่ตั้งแต่วันพรุ่งนี้ที่เริ่มต้นนั้นไม่ได้ขัดแย้งกันแม้ว่าคุณจะพูดว่า“ ปฏิเสธ” อีกคนหนึ่งก็ตาม แต่ตอนนี้จินตนาการถึงสถานการณ์ต่อไปนี้ คุณรู้ไหมว่าโจผู้สูบบุหรี่ตลอดชีวิตที่เป็นมะเร็งปอดและคุณสงสัยว่าเกิดอะไรขึ้นถ้าโจไม่สูบบุหรี่มาสามสิบปีเขาจะมีสุขภาพดีในวันนี้หรือไม่? ในกรณีนี้เรากำลังติดต่อกับบุคคลเดียวกันในเวลาเดียวกันจินตนาการถึงสถานการณ์ที่การกระทำและผลลัพธ์นั้นขัดแย้งโดยตรงกับข้อเท็จจริงที่ทราบ
ดังนั้นความแตกต่างที่สำคัญของการแทรกแซงและการต่อต้านคือในขณะที่การแทรกแซงคุณกำลังถามว่าจะเกิดอะไรขึ้นโดยเฉลี่ยถ้าคุณทำการกระทำในการต่อต้านคุณกำลังถามว่าจะเกิดอะไรขึ้นถ้าคุณใช้วิธีการต่าง ๆ ในสถานการณ์เฉพาะ , ให้ที่คุณมีข้อมูลเกี่ยวกับสิ่งที่เกิดขึ้นจริง โปรดทราบว่าเนื่องจากคุณทราบแล้วว่าเกิดอะไรขึ้นในโลกแห่งความเป็นจริงคุณต้องอัปเดตข้อมูลเกี่ยวกับอดีตในแง่ของหลักฐานที่คุณสังเกตเห็น
แบบสอบถามทั้งสองประเภทนี้มีความแตกต่างทางคณิตศาสตร์เนื่องจากต้องการข้อมูลในระดับที่แตกต่างกัน (การต่อต้านต้องมีข้อมูลเพิ่มเติมที่ต้องตอบ) และภาษาที่ซับซ้อนยิ่งขึ้นที่จะพูดชัดแจ้ง!
ด้วยข้อมูลที่จำเป็นในการตอบคำถามรุ่ง 3 คุณสามารถตอบคำถามรุ่ง 2 แต่ไม่ใช่วิธีอื่น ๆ แม่นยำยิ่งขึ้นคุณไม่สามารถตอบคำถามต่อต้านการปลอมแปลงได้ด้วยข้อมูลเพียงแค่การแทรกแซง ตัวอย่างที่มีการปะทะกันของการแทรกแซงและการต่อต้านเกิดขึ้นแล้วใน CV โปรดดูโพสต์นี้และโพสต์นี้ อย่างไรก็ตามเพื่อความสมบูรณ์ฉันจะใส่ตัวอย่างไว้ที่นี่ด้วย
ตัวอย่างด้านล่างสามารถพบได้ในCausality ส่วน 1.4.4
พิจารณาว่าคุณได้ทำการทดลองแบบสุ่มโดยที่ผู้ป่วยได้รับการสุ่ม (50% / 50%) ในการรักษา ( ) และเงื่อนไขการควบคุม ( ) และในกลุ่มการรักษาและกลุ่มควบคุม 50% ที่กู้คืน ( ) และเสียชีวิต 50% ( ) นั่นคือ yx=1x=0y=0y=1P(y|x)=0.5 ∀x,y
ผลลัพธ์ของการทดลองจะบอกคุณว่าผลของการแทรกแซงโดยเฉลี่ยนั้นเป็นศูนย์ นี่คือรุ่ง 2 คำถาม0P(Y=1|do(X=1))−P(Y=1|do(X=0)=0
แต่ตอนนี้ให้เราถามคำถามต่อไปนี้: เปอร์เซ็นต์ของผู้ป่วยที่เสียชีวิตจากการรักษาจะหายเป็นปกติหากไม่ได้รับการรักษา ศาสตร์ที่คุณต้องการในการคำนวณ1) P(Y0=0|X=1,Y=1)
คำถามนี้ไม่สามารถตอบได้เฉพาะกับข้อมูลที่คุณมี การพิสูจน์นั้นง่าย: ฉันสามารถสร้างแบบจำลองเชิงสาเหตุที่แตกต่างกันสองแบบซึ่งจะมีการแจกแจงแบบเดิมเหมือนกัน ทั้งสองมีให้ด้านล่าง:
ที่นี่จำนวนถึงปัจจัยที่ไม่ได้สังเกตการณ์ที่อธิบายว่าผู้ป่วยตอบสนองต่อการรักษาอย่างไร คุณสามารถนึกถึงปัจจัยที่อธิบายความหลากหลายในการรักษาตัวอย่างเช่น โปรดสังเกตว่าการแจกแจงส่วนขอบของทั้งสองรุ่นเห็นด้วยUP(y,x)
โปรดทราบว่าในรูปแบบแรกไม่มีใครได้รับผลกระทบจากการรักษาดังนั้นร้อยละของผู้ป่วยที่เสียชีวิตภายใต้การรักษาที่จะหายได้หากไม่ได้รับการรักษาเป็นศูนย์
อย่างไรก็ตามในรูปแบบที่สองผู้ป่วยทุกรายได้รับผลกระทบจากการรักษาและเรามีส่วนผสมของประชากรสองคนซึ่งผลเฉลี่ยเชิงสาเหตุกลายเป็นศูนย์ ในตัวอย่างนี้ปริมาณ counterfactual ไปที่ 100% --- ในรุ่น 2 ผู้ป่วยทุกรายที่เสียชีวิตภายใต้การรักษาจะหายดีหากไม่ได้รับการรักษา
ดังนั้นจึงมีความแตกต่างที่ชัดเจนของรุ่ง 2 และรุ่ง 3 ดังตัวอย่างที่แสดงคุณไม่สามารถตอบคำถามต่อต้านการปลอมแปลงด้วยข้อมูลและข้อสันนิษฐานเกี่ยวกับการแทรกแซงได้ สิ่งนี้ชัดเจนโดยมีสามขั้นตอนในการคำนวณ counterfactual:
- ขั้นตอนที่ 1 (การลักพาตัว):อัปเดตความน่าจะเป็นของปัจจัยที่ไม่ได้ตรวจสอบในแง่ของหลักฐานที่สังเกตP(u)P(u|e)
- ขั้นตอนที่ 2 (การกระทำ):ดำเนินการในรูปแบบ (เช่น(x))do(x))
- ขั้นตอนที่ 3 (การทำนาย):ทำนายในโมเดลที่แก้ไขY
สิ่งนี้จะไม่สามารถคำนวณได้หากไม่มีข้อมูลการทำงานเกี่ยวกับตัวแบบสาเหตุหรือไม่มีข้อมูลเกี่ยวกับตัวแปรแฝง