เมื่อใดที่ไม่เหมาะสมที่จะควบคุมตัวแปร?


15

ฉันนึกถึงตัวอย่างที่ไร้เดียงสาอย่างน้อยหนึ่งข้อ สมมติว่าฉันต้องการศึกษาความสัมพันธ์ระหว่าง X และ Z ฉันยังสงสัยว่า Y มีผลกับ Z ดังนั้นฉันจึงควบคุมสำหรับ Y อย่างไรก็ตามเมื่อปรากฎว่าไม่รู้จักฉัน X ทำให้ Y และ Y ทำให้ Z ดังนั้นโดยการควบคุม สำหรับ Y ฉัน "ปกปิด" ความสัมพันธ์ระหว่าง X และ Z เนื่องจาก X เป็นอิสระจาก Z ที่ให้ Y

ในตัวอย่างก่อนหน้านี้มันอาจเป็นกรณีที่ความสัมพันธ์ที่ฉันควรศึกษาอยู่ระหว่าง X และ Y และ Y และ Z อย่างไรก็ตามถ้าฉันรู้เรื่องดังกล่าวมาก่อนฉันจะไม่ทำวิทยาศาสตร์ใน สถานที่แรก การศึกษาที่ฉันทำตอนนี้ชี้ให้เห็นว่าไม่มีความสัมพันธ์ระหว่าง X และ Z ซึ่งไม่ใช่กรณีที่ .... X และ Z เกี่ยวข้องกัน

นี่คือตัวอย่างในแผนภาพการพึ่งพาต่อไปนี้ ในสถานการณ์ที่เหมาะสม Z ขึ้นอยู่กับ X และ Y และ X และ Y เป็นอิสระ เราควบคุม Y อย่างถูกต้องเพื่อกำหนดความสัมพันธ์ระหว่าง X และ Z ในสถานการณ์ด้านซ้าย Z ขึ้นอยู่กับ Y ซึ่งขึ้นอยู่กับ X. X และ Z เป็นอิสระจาก Y ดังนั้นความสัมพันธ์ระหว่าง X และ Z คือ "ปกปิด" โดยการควบคุมสำหรับ วาย

variable_relationships

คำถามของฉันก็คือ "เมื่อใดที่เหมาะสมที่จะควบคุมตัวแปร Y และเมื่อใด?" ... มันอาจเป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะตรวจสอบความสัมพันธ์ระหว่าง X และ Y อย่างเต็มที่ แต่ตัวอย่างเช่นการควบคุม Y ในระดับที่กำหนดคือ ตัวเลือก. เราจะตัดสินใจก่อนทำการศึกษาของเราและอะไรคือข้อผิดพลาดทั่วไปของการควบคุมมากหรือน้อยเกินไป?

ชื่นชมการอ้างอิง


7
เพื่อยกตัวอย่างสถานการณ์ที่แน่นอนของคุณเกิดขึ้นในการประเมินผลกระทบของการเลือกปฏิบัติทางเชื้อชาติ ให้เป็นเผ่าพันธุ์ ให้เป็นค่าแรง ให้เป็นการศึกษา การศึกษาที่ชัดเจนส่งผลกระทบต่อค่าจ้างดังนั้นคุณต้องการควบคุมเรื่องนั้น แต่หากการเลือกปฏิบัติทางเชื้อชาติทำให้ชนกลุ่มน้อยทางเชื้อชาติได้รับการศึกษาที่แย่ลงการควบคุมเพื่อการศึกษาจะครอบคลุมถึงการเลือกปฏิบัตินั้น เช่น. ดูโอนีลและจอห์นสัน (1996) เมื่อคำตอบของอเล็กซิสชี้ให้เห็นคุณต้องเข้าใจถึงปัญหาของคุณ ไม่มีปุ่มง่าย ๆ สำหรับการกดเพื่อแก้ไขทุกสิ่ง Z YXZY
Matthew Gunn

1
ฉันไม่มีความหวังสำหรับปุ่มที่จะกดง่าย แน่นอนฉันจะผิดหวังมากหากคำถามของฉันกลายเป็นคำตอบที่ไม่สำคัญ :)
สกอตต์

1
@Repmat ใช่ อย่างไรก็ตาม 4 ข้อสมมติฐานของการประมาณค่า IV นั้นเป็นสิ่งที่พบได้ยากและถึงแม้ว่าจะเป็นจุดแข็งของความสัมพันธ์ที่เกี่ยวข้องสามารถทำให้การประมาณค่า IV นั้นให้ผลลัพธ์ที่มีอคติ ดูตัวอย่างการประมาณค่าของ Hernánและ Robins (อ้างอิงเต็มและลิงก์ในคำตอบของฉัน) ตอนที่ 16: การประมาณค่าตัวแปรเครื่องมือ
Alexis

1
@Alexis ตามธรรมชาติแล้ว IVs นั้นยากที่จะหา ... "ไม่มีอาหารกลางวันฟรี" และทั้งหมดอย่างไรก็ตามเมื่อคุณทำคุณมักจะรู้อย่างนั้นโดยไม่มีข้อสงสัยใด ๆ
Repmat

1
@Repmat ... สมมติฐานสำหรับการประมาณการ IV ที่ถูกต้องต้องการมากกว่าภาพ DAG ... พวกเขาค่อนข้างอ่อนแอ
Alexis

คำตอบ:


7

ปรับอากาศ (เช่นการปรับ) น่าจะเป็นของผลบางส่วนได้รับการทำนายบางอย่างเกี่ยวกับตัวแปรที่สามคือการปฏิบัติกันอย่างกว้างขวาง แต่เป็นคุณถูกต้องชี้ให้เห็นจริงอาจแนะนำอคติเข้าไปในประมาณการผลเป็นตัวแทนของผลกระทบเชิงสาเหตุ สิ่งนี้สามารถเกิดขึ้นได้ด้วยคำจำกัดความ "คลาสสิค" ของคู่หูสาเหตุที่อาจเกิดขึ้นเพราะทั้งคู่สับสนและตัวทำนายผลประโยชน์แต่ละคนอาจมีสาเหตุที่ทำให้เกิดความสับสนเพิ่มขึ้น ใน DAG ด้านล่างตัวอย่างเช่นเป็นตัวรบกวนแบบคลาสสิกของเอฟเฟกต์เชิงสาเหตุของEต่อDเนื่องจาก (1) เป็นสาเหตุและเกี่ยวข้องกับEและ (2) เชื่อมโยงกับDเนื่องจากเกี่ยวข้องกับLEDEDซึ่งมีความเกี่ยวข้องกับD อย่างไรก็ตามทั้งเครื่องหรือ stratifying P ( D | E )ใน L (เป็น "Collider") จะผลิตลำเอียงประมาณการสาเหตุของผลกระทบของ Eใน Dเพราะ Lจะได้อายเพราะมี Dโดยตัวแปรไม่สามารถวัด U 2และ Lจะได้อายเพราะมี Eโดยตัวแปรไม่สามารถวัด U 1ยู2DP(D|E)LEDLDยู2LEยู1

DAG

การทำความเข้าใจว่าตัวแปรใดในการกำหนดเงื่อนไขหรือแบ่งชั้นการวิเคราะห์เพื่อให้การประเมินเชิงสาเหตุที่เป็นกลางต้องใช้การพิจารณาอย่างรอบคอบถึง DAG ที่เป็นไปได้โดยใช้เกณฑ์สำหรับการระบุผลกระทบเชิงสาเหตุ - ไม่มีสาเหตุทั่วไปที่ไม่ถูกบล็อกโดยเส้นทางลับๆ - อธิบายโดย Pearl, Robins และอื่น ๆ . ไม่มีทางลัด เรียนรู้รูปแบบที่สับสนทั่วไป เรียนรู้รูปแบบอคติการเลือกทั่วไป การปฏิบัติ

อ้างอิง

กรีนแลนด์, เอส., เพิร์ล, เจและโรบินส์, JM (1999) สาเหตุแผนภาพสำหรับการวิจัยทางระบาดวิทยา ระบาดวิทยา , 10 (1): 37–48

Hernán, MA และ Robins, JM (2018) สาเหตุการอนุมาน แชปแมน & ฮอล / ซีอาร์ซี, โบคาเรตัน, ฟลอริดา

Maldonado, G. และกรีนแลนด์, S. (2002) การประเมินผลกระทบเชิงสาเหตุ วารสารระหว่างประเทศของระบาดวิทยา , 31 (2): 422–438

ไข่มุกเจ (2000) เวรกรรม: รุ่น, การใช้เหตุผลและการอนุมาน สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์


12

ฉันเชื่อว่าคำตอบสำหรับคำถามของคุณอย่างรวดเร็วหนึ่งประโยค

เมื่อใดที่เหมาะสมที่จะควบคุมตัวแปร Y และเมื่อใด

คือ "เกณฑ์ประตูหลัง"

แบบจำลองโครงสร้างเชิงสาเหตุของจูเดียเพิร์ลสามารถบอกคุณได้อย่างชัดเจนว่าตัวแปรใดที่เพียงพอ (และเมื่อจำเป็น) สำหรับการปรับสภาพเพื่ออนุมานถึงผลกระทบเชิงสาเหตุของตัวแปรหนึ่งกับอีกตัวแปรหนึ่ง คือมีการตอบคำถามนี้โดยใช้เกณฑ์ด้านหลังซึ่งอธิบายไว้ในหน้า 19 ของบทความวิจารณ์โดย Pearl

ข้อแม้ที่สำคัญคือคุณต้องทราบความสัมพันธ์เชิงสาเหตุระหว่างตัวแปร (ในรูปแบบของลูกศรทิศทางในกราฟ) ไม่มีทางรอบนั้น นี่คือสิ่งที่ความยากลำบากและความเป็นไปได้ที่จะเกิดขึ้น แบบจำลองเชิงสาเหตุเชิงโครงสร้างของ Pearl อนุญาตให้คุณรู้วิธีตอบคำถามที่ถูกต้องเท่านั้นเนื่องจากแบบจำลองเชิงสาเหตุ (เช่นกราฟกำกับ) ซึ่งชุดแบบจำลองเชิงสาเหตุเป็นไปได้ที่จะได้รับการแจกแจงข้อมูลหรือวิธีค้นหาโครงสร้างเชิงสาเหตุโดยทำการทดลองที่เหมาะสม มันไม่ได้บอกคุณถึงวิธีการค้นหาโครงสร้างเชิงสาเหตุที่ถูกต้องเนื่องจากมีเพียงการกระจายข้อมูล ในความเป็นจริงมันอ้างว่าสิ่งนี้เป็นไปไม่ได้โดยไม่ต้องใช้ความรู้ / สัญชาติญาณภายนอกเกี่ยวกับความหมายของตัวแปร

เกณฑ์ด้านหลังประตูสามารถระบุได้ดังนี้:

เพื่อหาสิ่งที่ส่งผลกระทบต่อความสัมพันธ์เชิงสาเหตุของในY ,ชุดของตัวแปรโหนดSจะเพียงพอที่จะได้รับการปรับอากาศในตราบเท่าที่ทั้งสองฝ่ายของเกณฑ์ต่อไปนี้:XY,S

1) ไม่มีองค์ประกอบใด ๆ ในเป็นสายเลือดของXSX

2) บล็อกทั้งหมด "ประตูหลัง" เส้นทางระหว่างXและYSXY

นี่เป็น "ประตูหลัง" เส้นทางเป็นเพียงเส้นทางของลูกศรที่เริ่มต้นที่และสิ้นสุดที่มีลูกศรชี้ไปที่X (ทิศทางที่ลูกศรชี้ทั้งหมดไม่สำคัญ) และ "การบล็อก" คือเกณฑ์ที่มีความหมายเฉพาะซึ่งให้ไว้ในหน้า 11 ของลิงก์ด้านบน นี่เป็นเกณฑ์เดียวกันกับที่คุณจะอ่านเมื่อเรียนรู้เกี่ยวกับ "การแยก D" ฉันเองพบว่าบทที่ 8 ของการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องจักรอธิบายแนวคิดของการบล็อกในการแยก D ดีกว่าแหล่งไข่มุกที่ฉันเชื่อมโยงด้านบน แต่มันจะเป็นเช่นนี้:YX.

ชุดของโหนด, บล็อกเส้นทางระหว่างXและYถ้ามันตอบสนองอย่างน้อยหนึ่งในเกณฑ์ต่อไปนี้:S,XY

1) หนึ่งของโหนดในเส้นทางที่ยังอยู่ในส่งเสียงอย่างน้อยหนึ่งลูกศรบนเส้นทาง (เช่นลูกศรชี้ห่างจากโหนด)S,

2) โหนดที่ไม่ได้อยู่ในหรือบรรพบุรุษของโหนดในSมีลูกศรสองตัวในเส้นทาง "การชนกัน" ที่มีต่อมัน (เช่นการพบกันแบบตัวต่อตัว)SS

นี่คือหรือเป็นเกณฑ์ซึ่งแตกต่างจากเกณฑ์ทั่วไปประตูหลังซึ่งเป็นและเกณฑ์

เพื่อให้ชัดเจนเกี่ยวกับเกณฑ์ประตูหลังสิ่งที่บอกคุณคือสำหรับโมเดลเชิงสาเหตุที่กำหนดเมื่อปรับเงื่อนไขให้เพียงพอคุณสามารถเรียนรู้ผลกระทบเชิงสาเหตุจากการแจกแจงความน่าจะเป็นของข้อมูล (ดังที่เราทราบการกระจายข้อต่อเพียงอย่างเดียวนั้นไม่เพียงพอสำหรับการค้นหาพฤติกรรมเชิงสาเหตุเนื่องจากโครงสร้างเชิงสาเหตุหลายอันสามารถรับผิดชอบการกระจายตัวแบบเดียวกันนี่คือสาเหตุที่ต้องใช้ตัวแบบเชิงสาเหตุเช่นกัน) การแจกแจงสามารถประมาณได้โดยใช้ วิธีการเรียนรู้ของเครื่องเกี่ยวกับข้อมูลเชิงสังเกต ตราบใดที่คุณรู้ ที่โครงสร้างเชิงสาเหตุอนุญาตให้มีการ จำกัด ตัวแปร (หรือชุดของตัวแปร) การประเมินผลกระทบเชิงสาเหตุของตัวแปรหนึ่งในอีกตัวแปรหนึ่งนั้นดีเท่ากับการประเมินการกระจายข้อมูลซึ่งคุณได้รับจากวิธีการทางสถิติ

นี่คือสิ่งที่เราพบเมื่อเราใช้เกณฑ์ด้านหลังกับไดอะแกรมทั้งสองของคุณ:

ในกรณีที่ไม่ไม่มีอยู่เส้นทางประตูหลังจากเพื่อX ดังนั้นจึงเป็นความจริงที่Yบล็อกเส้นทางหลังทั้งหมด "เพราะ" ไม่มี อย่างไรก็ตามในแผนภาพซ้ายYเป็นทายาทสายตรงของX ,ในขณะที่ในแผนภาพที่ถูกต้องมันไม่ได้เป็น ดังนั้นYเป็นไปตามเกณฑ์ของประตูหลังในแผนผังด้านขวา แต่ไม่ใช่ทางด้านซ้าย เหล่านี้เป็นผลลัพธ์ที่น่าแปลกใจZX.YYX,Y

อะไรเป็นที่น่าแปลกใจก็คือว่าในแผนภาพขวาตราบใดที่มันเป็นภาพที่สมบูรณ์คุณไม่จำเป็นต้องอยู่บนเงื่อนไขที่จะได้รับผลกระทบเชิงสาเหตุเต็มรูปแบบของXในZ (กล่าวอีกนัยหนึ่งชุดค่า nullเป็นไปตามเกณฑ์ของประตูหลังและเพียงพอสำหรับการปรับสภาพ) นี่เป็นความจริงเพราะค่าของXไม่เกี่ยวข้องกับค่าของYดังนั้นสำหรับข้อมูลที่เพียงพอคุณสามารถเฉลี่ยมากกว่า ค่าของYจะเหยียดหยามผลกระทบของYบนZ การคัดค้านประเด็นหนึ่งจนถึงจุดนี้อาจเป็นไปได้ว่าข้อมูลมี จำกัด ดังนั้นคุณจึงไม่มีตัวแทนจำหน่ายYXZXYYYZ.ค่า Y แต่จำไว้ว่าเกณฑ์ด้านหลังถือว่าคุณมีการแจกแจงความน่าจะเป็นของข้อมูล ในกรณีนี้คุณสามารถวิเคราะห์ marginalize Y ได้ Marginalization ผ่านชุดข้อมูล จำกัด เป็นเพียงการประมาณ นอกจากนี้โปรดทราบว่าไม่น่าเป็นไปได้อย่างยิ่งที่ภาพนี้จะสมบูรณ์ มีปัจจัยภายนอกที่มีแนวโน้มว่าจะมีผลกระทบ X หากปัจจัยเหล่านั้นเกี่ยวข้องกับ Yในทางใดทางหนึ่งก็ต้องทำงานมากกว่านี้เพื่อดูว่า Yต้องถูก จำกัด หรือไม่หรือเพียงพอ หากคุณวาดลูกศรอื่นที่ชี้จาก Yถึง Xดังนั้น Yจึงจำเป็นต้องมีการควบคุมYY.X.YYYXY

แน่นอนว่าเป็นตัวอย่างง่ายๆที่เข้าใจได้ง่ายเมื่อรู้ว่าสามารถหรือไม่สามารถควบคุมได้ แต่นี่คือตัวอย่างเพิ่มเติมที่ไม่ชัดเจนโดยดูจากแผนภาพและคุณสามารถใช้เกณฑ์ด้านหลังได้ สำหรับแผนภาพต่อไปนี้เราถามว่ามันเพียงพอที่จะควบคุมYเมื่อพิจารณาผลกระทบเชิงสาเหตุของXในZYYXZ.

การควบคุมให้เพียงพอสำหรับ $ Y $ เพื่อหาผลกระทบเชิงสาเหตุของ $ X $ ต่อ $ Z $ หรือไม่

สิ่งแรกที่ควรทราบก็คือว่าในทั้งสองกรณีไม่ได้เป็นลูกหลานของX ดังนั้นมันจึงผ่านเกณฑ์นั้น สิ่งต่อไปที่จะต้องทราบก็คือว่าในทั้งสองกรณีมีเส้นทางลับๆจากหลายZเพื่อX สองในแผนภาพด้านซ้ายและสามทางด้านขวาYX.ZX.

ZYXZWBAX. YY B,B,YZYX

ZWBYX. Y ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

ดังที่ฉันได้กล่าวไว้ก่อนหน้านี้ว่าการใช้เกณฑ์ด้านหลังประตูนั้นจำเป็นต้องให้คุณทราบถึงรูปแบบเชิงสาเหตุ (เช่นแผนภาพ "ลูกศร" ที่ถูกต้องของลูกศรระหว่างตัวแปร) แต่ในความคิดของฉันแบบจำลองสาเหตุโครงสร้างได้ให้วิธีที่ดีที่สุดและเป็นทางการที่สุดในการค้นหาแบบจำลองดังกล่าวหรือรู้ว่าเมื่อใดที่การค้นหาไร้ประโยชน์ นอกจากนี้ยังมีผลข้างเคียงที่ยอดเยี่ยมของการแสดงคำเช่น "รบกวน", "การไกล่เกลี่ย" และ "ปลอม" (ซึ่งทำให้ฉันสับสน) ล้าสมัย เพียงแค่แสดงภาพให้ฉันแล้วฉันจะบอกคุณว่าควรควบคุมวงไหน


3
ดี ฉันกำลังถกเถียงกันว่าจะเพิ่มCausalityของ Pearl ในส่วนการอ้างอิงของคำตอบของฉันหรือไม่และตอนนี้ก็ทำไปแล้ว :)
อเล็กซิส

0

ต่อไปนี้อาจเหมาะสมหรือไม่เหมาะสมกับกรณีของคุณ: ถ้าXเป็นการรักษาคุณอาจสามารถแก้ไขปัญหาของคุณโดยใช้การจับคู่คะแนนความชอบซึ่งคุณจะยังคงรักษาตัวแปรYเมื่อคุณทำการจับคู่ ในคำอื่น ๆ ที่คุณสมดุลของตัวแปร ( Yเป็นหนึ่งในตัวแปรดังกล่าว) Xที่คาดการณ์ที่ได้รับการรักษา
โปรดสังเกตว่าไม่มีการอ้างอิงถึงตัวแปรผลลัพธ์Zในข้างต้น นอกจากนี้คุณยังสามารถตรวจสอบวิธีการสังเกตความสมดุลของคุณ (โดยการสร้างก่อนและหลังการจับคู่สมดุลตาราง) ซึ่งอาจทำให้คุณข้อมูลเชิงลึกเท่าใดของจะถูกกำหนดโดยXY

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.