(โพสต์ค่อนข้างยาวขออภัยมีข้อมูลพื้นหลังมากมายดังนั้นโปรดข้ามไปที่คำถามด้านล่าง)
Intro:ฉันกำลังทำงานในโครงการที่เรากำลังพยายามที่จะระบุผลกระทบของตัวแปรภายนอกไบนารีบนผลอย่างต่อเนื่องปีเราได้สร้างเครื่องมือขึ้นมาซึ่งเราเชื่อมั่นอย่างยิ่งว่าจะได้รับการมอบหมายแบบสุ่ม
ข้อมูล:ข้อมูลอยู่ในโครงสร้างแผงซึ่งมีการสังเกตการณ์ประมาณ 34,000 ครั้งกระจายไปทั่ว 1,000 หน่วยและประมาณ 56 ช่วงเวลา ใช้ค่า 1 สำหรับการสังเกตประมาณ 700 (2%) และทำประมาณ 3000 (9%) 111 (0.33%) สังเกตคะแนน 1 ทั้งและและมันก็เป็นสองเท่าแนวโน้มสำหรับข้อสังเกตที่จะทำคะแนน 1ถ้ามันยังคะแนน 1 z_1
การประมาณ:เราประเมินโมเดล 2SLS ต่อไปนี้ผ่านขั้นตอน ivreg2 ของ Stata:
โดยที่เป็นเวกเตอร์ของตัวแปรภายนอกอื่น ๆ คือค่าที่คาดการณ์ของจากระยะแรกและและเป็นคำที่ผิดพลาด
ผลลัพธ์:ดูเหมือนว่าทุกอย่างจะทำงานได้ดี การประมาณการมีความสำคัญสูงในขั้นตอนแรกและการประมาณการมีความสำคัญสูงในขั้นตอนที่สอง สัญญาณทั้งหมดเป็นไปตามที่คาดไว้รวมถึงสัญญาณสำหรับตัวแปรภายนอกอื่น ๆ อย่างไรก็ตามปัญหาคือว่าการประมาณของ - สัมประสิทธิ์ของความน่าเชื่อถือนั้นมีขนาดใหญ่มาก (หรืออย่างน้อยก็เป็นไปตามที่เราตีความมาก่อน)
อยู่ในช่วงประมาณ 2 ถึงประมาณ 26 ด้วยค่าเฉลี่ยและค่ามัธยฐานของ 17 แต่ค่าประมาณของมีช่วงตั้งแต่ 30 ถึง 40 (ขึ้นอยู่กับสเปค)!
อ่อนแอ IV:ความคิดแรกของเราคือว่านี่เป็นเพราะเครื่องมืออ่อนแอเกินไป นั่นคือไม่สัมพันธ์กับตัวแปรภายนอกมากนัก แต่สิ่งนี้ดูเหมือนจะไม่เป็นเช่นนั้น ในการตรวจสอบจุดอ่อนของเครื่องมือเราใช้ Finlay, Magnusson และแพ็คเกจอ่อนแอของ Schaffer เนื่องจากมีการทดสอบที่แข็งแกร่งต่อการละเมิดสมมติฐาน (ซึ่งมีความเกี่ยวข้องที่นี่เนื่องจากเรามีข้อมูลแผงและจัดกลุ่ม SE ของเราที่ ระดับหน่วย)
ตามการทดสอบ AR ของพวกเขาขอบเขตล่างของช่วงความมั่นใจ 95% สำหรับค่าสัมประสิทธิ์ระยะที่สองอยู่ระหว่าง 16 และ 29 (ขึ้นอยู่กับข้อกำหนดอีกครั้ง) ความน่าจะเป็นในการปฏิเสธนั้นเป็นจริง 1 สำหรับทุกค่าใกล้กับศูนย์
การสังเกตที่มีอิทธิพล: เราได้ลองประเมินแบบจำลองด้วยการลบแต่ละหน่วยออกทีละการสังเกตแต่ละครั้งจะถูกลบออกและแยกกลุ่มออก ไม่มีการเปลี่ยนแปลงที่แท้จริง
วิธีแก้ปัญหาที่เสนอ: มีคนเสนอว่าเราไม่ควรสรุปผลกระทบโดยประมาณของเครื่องมือในเมตริกดั้งเดิม (0-1) แต่ในเมตริกของเวอร์ชันที่คาดการณ์ไว้ อยู่ในช่วง -0.01 ถึง 0.1 โดยมีค่าเฉลี่ยและค่ามัธยฐานประมาณ 0.02 และ SD ประมาณ 0.018 ถ้าเราจะสรุปผลโดยประมาณของโดยให้เพิ่มหนึ่ง SD ในนั่นคือ (ข้อกำหนดอื่น ๆ ให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด) นี่จะเป็นวิธีที่สมเหตุสมผลมากขึ้น (แต่ก็ยังเป็นรูปธรรม) ดูเหมือนว่าโซลูชั่นที่สมบูรณ์แบบ ยกเว้นว่าฉันไม่เคยเห็นใครทำอย่างนั้น ทุกคนดูเหมือนจะตีความค่าสัมประสิทธิ์ระยะที่สองโดยใช้เมตริกของตัวแปรภายนอกเดิม
คำถาม:ในแบบจำลอง IV มันถูกต้องหรือไม่ที่จะสรุปผลกระทบโดยประมาณ (LATE จริง ๆ ) ของการเพิ่มขึ้นของตัวแปรภายนอกโดยใช้ตัวชี้วัดของเวอร์ชันที่ทำนายไว้ ในกรณีของเราเมตริกนั้นคาดว่าน่าจะเป็น
หมายเหตุ:เราใช้ 2SLS แม้ว่าเราจะมีตัวแปร endogenous แบบไบนารี (ทำให้ระยะแรกเป็น LPM) สิ่งนี้ตามด้วย Angrist & Krueger (2001):“ ตัวแปรเครื่องมือและการค้นหาเพื่อระบุ: จากอุปสงค์และอุปทานสู่การทดลองตามธรรมชาติ”) เราได้ลองใช้กระบวนการสามขั้นตอนที่ใช้ใน Adams, Almeida และ Ferreira (2009):“ ทำความเข้าใจเกี่ยวกับความสัมพันธ์ระหว่างผู้ก่อตั้ง - ซีอีโอกับประสิทธิภาพของ บริษัท ” วิธีหลังซึ่งประกอบด้วยโมเดล probit ตามด้วย 2SLS ให้ค่าสัมประสิทธิ์ที่เล็กลงและมีเหตุผลมากขึ้น แต่ยังคงมีขนาดใหญ่มากหากตีความใน 0-1 เมตริก (ประมาณ 9-10) เราได้ผลลัพธ์เดียวกันกับการคำนวณด้วยตนเองเหมือนกับ probit-2sls-option ใน Cerulli ivtreatreg
etregress/treatreg
ไหม