เราจะพูดอะไรเกี่ยวกับแบบจำลองของข้อมูลเชิงสังเกตในกรณีที่ไม่มีเครื่องมือ?


10

ฉันเคยถามคำถามเกี่ยวกับเอกสารที่ตีพิมพ์มาแล้วในหลายพื้นที่ที่ใช้การถดถอย (และแบบจำลองที่เกี่ยวข้องเช่นแบบจำลองแบบพาเนลหรือ GLMs) ในข้อมูลเชิงสังเกต (เช่นข้อมูลที่ไม่ได้ผลิตโดยการทดลองที่ควบคุม ในหลายกรณี - แต่ไม่เสมอไป - ข้อมูลถูกตรวจพบตลอดเวลา) แต่เมื่อไม่มีความพยายามในการแนะนำตัวแปรเครื่องมือ

ฉันได้ทำการวิพากษ์วิจารณ์จำนวนมากในการตอบสนอง (เช่นการอธิบายปัญหาเกี่ยวกับอคติเมื่อตัวแปรสำคัญอาจหายไป) แต่เนื่องจากคนอื่น ๆ ที่นี่จะไม่สงสัยเลยว่ามีความรู้มากกว่าฉันในหัวข้อนี้ฉันคิดว่าฉันถาม:

  1. อะไรคือประเด็นสำคัญ / ผลที่ตามมาของการพยายามหาข้อสรุปเกี่ยวกับความสัมพันธ์ (โดยเฉพาะ แต่ไม่ จำกัด เฉพาะการสรุปเชิงสาเหตุ) ในสถานการณ์เช่นนี้?

  2. มีประโยชน์อะไรกับการศึกษาที่เหมาะกับแบบจำลองดังกล่าวในกรณีที่ไม่มีเครื่องมือหรือไม่?

  3. มีการอ้างอิงที่ดีอะไรบ้าง (หนังสือหรือเอกสาร) เกี่ยวกับปัญหาของการสร้างแบบจำลอง (โดยเฉพาะอย่างยิ่งที่มีแรงจูงใจทางด้านเทคนิคที่ไม่ชัดเจนของผลที่ตามมาเนื่องจากโดยทั่วไปแล้วคนที่ถามมีภูมิหลังที่หลากหลาย กระดาษ? การอภิปรายเกี่ยวกับข้อควรระวัง / ปัญหาเกี่ยวกับเครื่องมือจะเป็นประโยชน์เช่นกัน

(การอ้างอิงพื้นฐานเกี่ยวกับตัวแปรเครื่องมืออยู่ที่นี่แม้ว่าคุณจะต้องเพิ่มสิ่งใดสิ่งหนึ่งก็จะเป็นประโยชน์เช่นกัน)

ตัวชี้ไปยังตัวอย่างที่ใช้งานได้ดีของการค้นหาและการใช้เครื่องมือจะเป็นโบนัส แต่ไม่ใช่ประเด็นสำคัญสำหรับคำถามนี้

[ฉันจะชี้คนอื่นให้คำตอบที่ดีที่นี่เช่นคำถามมาหาฉัน ฉันอาจเพิ่มตัวอย่างหนึ่งหรือสองตัวอย่างเมื่อได้รับ]

คำตอบ:


8

ดังนั้นสนามส่วนใหญ่ของฉัน (แม้ว่าจะไม่ใช่ส่วนที่ฉันทำงานด้วย) ส่วนใหญ่เกี่ยวข้องกับเรื่องนี้ - การปรับรุ่น GLM ให้เหมาะสมกับข้อมูลเชิงสังเกตการณ์ ส่วนใหญ่ตัวแปรเครื่องมือเป็นสิ่งที่หายากไม่ว่าจะเกิดจากการขาดความคุ้นเคยกับเทคนิคหรือที่สำคัญคือการขาดเครื่องมือที่ดี เพื่อตอบคำถามของคุณตามลำดับ:

  1. ปัญหาที่สำคัญคือแน่นอนว่าสิ่งรบกวนที่เหลือโดยตัวแปรที่ไม่ได้สังเกตเห็นนั้นเกี่ยวข้องกับทั้งการเปิดเผยและผลลัพธ์ที่น่าสนใจ รุ่นภาษาธรรมดาคือคำตอบของคุณอาจผิด แต่คุณไม่จำเป็นต้องรู้ว่าอะไรหรือเพราะอะไร การตัดสินใจเกี่ยวกับข้อมูลนั้น (เช่นว่าจะใช้วิธีการบำบัดแบบพิเศษหรือไม่ว่าสิ่ง X ในสิ่งแวดล้อมเป็นอันตรายหรือไม่ก็ตาม) เป็นการตัดสินใจโดยใช้ข้อมูลที่ไม่ถูกต้อง

  2. ฉันขอยืนยันว่าคำตอบนี้คือใช่เพราะโดยส่วนใหญ่การศึกษาเหล่านี้พยายามหาอะไรบางอย่างที่ไม่จำเป็นต้องเป็นเครื่องมือที่ดีหรือการสุ่มไม่เป็นไปไม่ได้ ดังนั้นเมื่อพูดถึงมันแล้วทางเลือกคือ "แค่เดา" แบบจำลองเหล่านี้หากไม่มีสิ่งใดเป็นความคิดที่เป็นทางการของเราและความพยายามอย่างแน่วแน่ที่จะเข้าใกล้คำตอบและง่ายต่อการเข้าใจ

ตัวอย่างเช่นคุณสามารถถามได้ว่าการให้อคตินั้นรุนแรงเพียงใดเพื่อเปลี่ยนคำตอบของคุณอย่างมีคุณภาพ (เช่น "ใช่ X ไม่ดีสำหรับคุณ ... ") และประเมินว่าคุณคิดว่าสมเหตุสมผลหรือไม่ ความแข็งแกร่งนั้นแฝงอยู่นอกข้อมูลของคุณ

ตัวอย่างเช่นการค้นพบว่าการติดเชื้อ HPV มีความสัมพันธ์อย่างมากกับมะเร็งปากมดลูกคือการค้นพบที่สำคัญและความแข็งแกร่งของปัจจัยที่ไม่สามารถวัดได้ซึ่งจะมีอคติว่าตลอดทางจนถึงโมฆะนั้นจะต้องแข็งแกร่งอย่างน่าประหลาด

นอกจากนี้ควรสังเกตว่าเครื่องมือไม่ได้แก้ไขสิ่งนี้ - พวกมันทำงานได้เพียงบางสมาคมที่ไม่มีการวัดเช่นกันและแม้กระทั่งการทดลองแบบสุ่มที่ประสบปัญหา (การเลื่อนกลางที่แตกต่างระหว่างการรักษาและการควบคุมพฤติกรรมใด ๆ ที่เปลี่ยนแปลงหลังการสุ่ม ประชากรเป้าหมาย) ที่ได้รับความมันวาวไปเล็กน้อย

  1. Rothman, กรีนแลนด์และแลชเขียนรุ่นล่าสุดของระบาดวิทยาสมัยใหม่ซึ่งโดยพื้นฐานแล้วเป็นหนังสือที่อุทิศให้กับการพยายามทำสิ่งเหล่านี้ในวิธีที่ดีที่สุดเท่าที่จะเป็นไปได้

8

ในทางตรงกันข้ามกับมุมมองจากด้านระบาดวิทยาที่แสดงโดย Fomite ตัวแปรเครื่องมือเป็นเครื่องมือที่จำเป็นในทางเศรษฐศาสตร์ที่สอนค่อนข้างเร็ว เหตุผลของเรื่องนี้ก็คือการให้ความสำคัญอย่างมากกับการพยายามตอบคำถามเชิงสาเหตุในการวิจัยทางเศรษฐกิจในทุกวันนี้ซึ่งจะขยายขอบเขตที่ความสัมพันธ์เพียงแค่ได้รับการยกย่องว่าไม่น่าสนใจ ข้อ จำกัด หลักคือเศรษฐศาสตร์เป็นเขตข้อมูลเนื่องจากเป็นการยากที่จะทำการทดลองแบบสุ่ม หากฉันต้องการทราบว่าผลของการเสียชีวิตของผู้ปกครองในระยะแรกต่อผลการศึกษาระยะยาวของเด็กคนส่วนใหญ่จะคัดค้านการทำสิ่งนี้ผ่านทางเส้นทางควบคุมแบบสุ่ม - และถูกต้องแล้ว เอกสารแจกนี้จากหลักสูตรของ MIT แสดงในหน้า 3-5 สิ่งที่เป็นปัญหาอื่น ๆ ที่มีอยู่กับการทดลอง

ในการพูดถึงจุดแต่ละจุด:

  1. x%) ดังนั้นพวกเขาจึงประเมินสมการความต้องการและลืมหรือเพิกเฉยต่อความจริงที่ว่าอุปสงค์และอุปทานนั้นถูกกำหนดพร้อมกัน ดังนั้นผลที่ได้นั้นขึ้นอยู่กับการรับรู้ของนักวิจัย / นักวิเคราะห์ข้อมูลเกี่ยวกับข้อ จำกัด ของข้อมูลมากกว่าข้อมูลเอง แต่ผลที่ได้นั้นอาจมีตั้งแต่สิ่งเล็กน้อยไปจนถึงสิ่งที่พวกเขาส่งผลเสียต่อชีวิตของผู้คน

  2. Dผมคุณสามารถคำนวณผลของการรักษาทำแบบเดียวกันกับที่ไม่สามารถสังเกตได้และถามว่าการเปลี่ยนแปลงใน unobservables นั้นมีขนาดใหญ่เพียงใดเพื่ออธิบายผลการรักษาที่สังเกตได้ หากการเปลี่ยนแปลงที่ไม่มีผู้สังเกตการณ์ต้องมีขนาดใหญ่มากเราสามารถไว้วางใจสิ่งที่ค้นพบของเราได้อีกเล็กน้อย อ้างอิงสำหรับเรื่องนี้คือAltonji พี่และ Taber (2000)
  3. อาจเป็นนักเศรษฐศาสตร์ประยุกต์ที่จะแนะนำAngrist และ Pischke (2009) "เศรษฐมิติที่ไม่เป็นอันตรายมากที่สุด" แม้ว่าหนังสือเล่มนี้มีวัตถุประสงค์หลักเพื่อนักศึกษาระดับบัณฑิตศึกษาและนักวิจัยก็เป็นไปได้ที่จะข้ามส่วนคณิตศาสตร์ของมันและเพียงแค่ได้รับสัญชาตญาณซึ่งยังอธิบายอย่าง พวกเขาแนะนำแนวคิดของการตั้งค่าการทดลองจากนั้นมีแนวโน้มที่จะ OLS และข้อ จำกัด ของมันเกี่ยวกับความเป็น endogeneity จากตัวแปรที่ถูกละไว้พร้อมกันการเลือก ฯลฯ พวกเขายังพูดถึงปัญหาเกี่ยวกับตัวแปรเครื่องมือเช่นเครื่องมืออ่อนหรือใช้มากเกินไป Angrist และ Krueger (2001)นอกจากนี้ยังให้ภาพรวมที่ไม่ใช่ด้านเทคนิคของตัวแปรเครื่องมือและข้อผิดพลาดที่อาจเกิดขึ้นและพวกเขายังมีตารางที่สรุปการศึกษาหลายและเครื่องมือของพวกเขา

น่าจะเป็นทั้งหมดนี้นานกว่าคำตอบทั่วไปที่นี่ควรจะเป็น แต่คำถามที่กว้างมาก ฉันแค่อยากจะเน้นจุดที่ตัวแปรเครื่องมือ (ซึ่งมักจะหายาก) ไม่ได้เป็นเพียงสัญลักษณ์แสดงหัวข้อย่อยในกระเป๋าของเรา มีวิธีการอื่นที่ไม่ใช่การทดลองเพื่อเปิดเผยผลเชิงสาเหตุจากข้อมูลเชิงสังเกตเช่นความแตกต่างในความแตกต่างการออกแบบความไม่ต่อเนื่องการถดถอยการจับคู่หรือการถดถอยผลคงที่ (ถ้าคู่หูของเราไม่มีเวลา) สิ่งเหล่านี้ถูกกล่าวถึงใน Angrist และ Pischke (2009) และในเอกสารแจกที่เชื่อมโยงกับในตอนแรก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.