เหตุใดจึงใช้ DV ที่ล้าหลังเป็นตัวแปรเครื่องมือ


12

ฉันได้รับรหัสการวิเคราะห์ข้อมูลที่ไม่ได้เป็นนักเศรษฐศาสตร์ฉันไม่สามารถเข้าใจได้ หนึ่งโมเดลรันการถดถอยตัวแปรเครื่องมือด้วยคำสั่ง Stata ต่อไปนี้

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

ชุดข้อมูลนี้เป็นพาเนลที่มีการสังเกตแบบหลายลำดับสำหรับตัวแปรชุดนี้

ทำไมรหัสนี้ถึงใช้ค่า lagged ของ DV เป็นเครื่องดนตรี? ตามที่ฉันเข้าใจ (จากการขุดลงในตำราเรียนเก่า) การประมาณค่า IV จะถูกใช้เมื่อมีปัญหาเนื่องจาก regressor มีความสัมพันธ์กับคำที่ผิดพลาด อย่างไรก็ตามไม่มีการกล่าวถึงการเลือกหน่วงเวลาของ DV เป็นเครื่องมือ

ความคิดเห็นในบรรทัดของรหัสนี้กล่าวถึง "causality" ความช่วยเหลือในการหาสิ่งที่เป็นเป้าหมายที่นี่จะได้รับการต้อนรับมากที่สุด


จากคำถามของคุณคุณอาจกำลังอ่านรหัสผิดเล็กน้อย ไวยากรณ์กำลังใช้ความแตกต่างเป็น "เครื่องมือ" เพื่อประเมินความล่าช้าของตัวแปรตาม
Andy W

lara: คุณสามารถแก้ไขคำถามของคุณเพื่ออธิบายด้วยความหมายของรหัส stata ได้หรือไม่?
user603

คำตอบ:


7

แก้ไข: จากการชี้แจงรหัส stata ที่ให้ไว้โดย Andy W ด้านล่างฉันเปลี่ยนคำตอบของฉันเพื่อให้ดีขึ้นคำถาม คุณจะพบคำตอบแบบเก่าของฉันด้านล่างของคำตอบปัจจุบัน

ดูเหมือนว่ารหัสของคุณเป็นความพยายามอย่างงุ่มง่ามที่ DIY'ing the ตัวประมาณ Arellano-Bond (สมมติว่า ivreg ประมาณการด้วย 2SOLS) คุณสามารถค้นหารายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานและตรรกะของประมาณการ A / บีในบทความรีวิวนี้มีความสุขเช่นเดียวกับในนี้แนะนำที่กว้างขึ้น

โดยสรุปและภายใน 3 บรรทัด: แม้ว่าตัวประมาณค่า A / B นั้นเป็นตัวประมาณค่า IV (แบบทั่วไป) แต่ก็ไม่ได้ใช้เพื่อแก้ไขปัญหาของเวรกรรมใด ๆ IV ในบริบทนี้ใช้เพื่อให้การประมาณค่าสัมประสิทธิ์ AR อย่างมีประสิทธิภาพในบริบทของข้อมูลพาเนล

ฉันขอแนะนำให้ต่อต้านการประดิษฐ์วงล้อใหม่ที่นี่และแทนที่จะใช้กล่องเครื่องมือที่ทำไว้แล้วเพื่อทำการประมาณค่าดังกล่าว สำหรับ stata คุณสามารถใช้แพ็คเกจ XTABOND2 (หรือ XTABOND หากคุณใช้งาน STAT11)


คำตอบเก่า:

ตัวอย่างง่ายๆจะช่วยคุณที่นี่ สมมติว่าคุณมีตัวแปรสองตัวและเก็บตัวอย่างเมื่อเวลาผ่านไปซึ่งความสัมพันธ์ระหว่างและนั้นสูงมาก คุณต้องการที่จะทำให้การเรียกร้องเกี่ยวกับก่อให้เกิดแต่โชคร้ายที่มีการแข่งขันที่ดีมากและทฤษฎีที่น่าเชื่อถือตามที่ทำให้เกิดx_ty t x t y t x t y t y t x txtytxtytxtytytxเสื้อ

ในการปลดการแข่งขันสองโมเดลคุณต้องถอยหลังใน (แทน ) บ่อยครั้งที่คุณจะสูญเสียความแม่นยำ (เช่นความสัมพันธ์ระหว่างตัวแปรตัวอย่างในเวลาต่าง ๆ มักจะต่ำกว่าความสัมพันธ์ระหว่างตัวแปรตัวอย่างพร้อมกัน)x t - 1 x tYเสื้อxเสื้อ-1xเสื้อ

วิธีที่ทั้งสองรูปแบบการแข่งขัน -และ - ตอนนี้ disentangled คือสันนิษฐานว่าไม่มีทฤษฎีที่ดีซึ่งจากหนึ่ง รอบระยะเวลาที่ผ่านมาอาจเกิดจากปัจจุบัน('อดีตไม่สามารถเกิดจากอนาคต') ยกเว้นความรู้สึกที่สองของเวรกรรม x t - 1y t x yYเสื้อxเสื้อ-1xเสื้อ-1Yเสื้อxY

โปรดทราบว่าการใช้เคล็ดลับนี้จะใช้ได้เฉพาะในกรณีที่ตัวแปรทั้งสอง (และเป็นแบบนิ่งที่ )x t - 1ฉัน( 0 )Yเสื้อxเสื้อ-1ผม(0)


+1 เห็นด้วยกับการตีความนี้เกี่ยวกับดูเหมือนว่า DIY Arellano-Bond หมายเหตุ: ฉันพบว่าอาเรลลาโน - บอนด์นั้นน่าเชื่อถือเฉพาะเมื่อจำนวนหน่วยตัดขวางมีขนาดใหญ่มาก --- เช่นเดียวกับหลายร้อย Arellano บอกเป็นนัยในบทความและตำราเรียนของเขาโดยระบุว่าความสอดคล้องอยู่ในจำนวนของส่วนขวางและอัตราการบรรจบกันไม่ได้รวดเร็วอย่างนั้น
Cyrus S

5

ฉันไม่รู้จัก Stata ดังนั้นฉันจึงไม่สามารถแสดงความคิดเห็นกับรุ่นที่ระบุได้ แต่การใช้ตัวแปรที่ล้าหลังนั้นเป็นวิธีการทั่วไปเมื่อต้องรับมือกับความลำเอียงพร้อมกันโดยทั่วไปและการสร้างตัวแปรเครื่องมือโดยเฉพาะ

สมมติว่าคุณมีข้อเสนอแนะระหว่างสองตัวแปรในโมเดลของคุณ: ตัวแปรอิสระ (เช่นราคา) และตัวแปรตาม (เช่นปริมาณ) จากนั้นทั้งสองจะเป็น endogeneous (สาเหตุของพวกเขาเกิดขึ้นจากภายในแบบจำลอง) และการก่อกวนคำศัพท์ข้อผิดพลาดจะมีผลต่อตัวแปร ทั้งสอง

ในการแก้ปัญหานี้คุณต้องการสร้างตัวแปรอิสระ (ราคา) ที่เป็นเอกเทศเพื่อให้การรบกวนในข้อผิดพลาดมีผลเฉพาะกับตัวแปร (ปริมาณ) สิ่งนี้สามารถทำได้โดยการสร้างตัวแปร exogeneous ใหม่โดยการถดถอยตัวแปร exogeneous อื่น ๆ ในรูปแบบของคุณในราคา ตัวแปร exogeneous ใหม่เหล่านี้เป็นตัวแปรเครื่องมือของคุณ (IV) IVs นั้นได้มาจากคำศัพท์ที่เป็นเอกสิทธิ์ดังนั้นจึงไม่มีความสัมพันธ์กับข้อผิดพลาด

แต่การทำเช่นนี้คุณต้องเข้าใจว่าตัวแปรใดที่เหมือนกันดังนั้นพวกมันจึงสามารถใช้หาค่า IV ได้ เราสามารถทราบได้ว่าตัวแปรที่ล้าหลัง "เกิดขึ้น" ในอดีตและไม่สามารถสัมพันธ์กับข้อผิดพลาดในปัจจุบันได้ ตัวแปรที่ล้าหลังจึงเป็นเอกสิทธิ์และกลายเป็นตัวเลือกที่สะดวกในการหาค่า IV (อย่างไรก็ตามโปรดทราบว่าอาร์กิวเมนต์ก่อนหน้านี้ล้มเหลวเมื่อข้อผิดพลาดมีความสัมพันธ์กันโดยอัตโนมัติ)

การแนะนำที่ดีและการอ้างอิงถึงสิ่งนี้คือเศรษฐมิติเบื้องต้น: วิธีการที่ทันสมัยโดย Wooldridge


5

สำหรับผู้ที่ไม่คุ้นเคยกับข้อมูลโค้ดต่อไปนี้จาก Stata ทาง OP ที่ให้ไว้

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

สมการนี้สามารถอ่านได้

Yเสื้อ=α+β1(VaR1)+β2(VaR1)+β3(VaR1)+β4(Y~เสื้อ-1)

Y~เสื้อ-1

Y~เสื้อ-1=α+Z1(Δ2Yเสื้อ)+Z2(Δ3Yเสื้อ)+Z3(Δ4Yเสื้อ)

(เช่นระยะแรกของสมการ IV อยู่ในวงเล็บในรหัส Stata)

deltas แสดงถึงความแตกต่างของลำดับที่สองที่สามและสี่และพวกมันถูกใช้เป็นเครื่องมือที่แยกออกเพื่อประเมินความล่าช้าของตัวแปรตาม

L.เสื้อ-1D.D2.

ในที่สุดฉันก็ไม่สามารถคิดถึงเหตุผลที่สมเหตุสมผลได้ว่าทำไมบางคนถึงทำเช่นนี้ แต่ชี้ให้เห็น Kwak (อ้างอิงนี้กระดาษ ) ว่าวิธีการเรลลาบอนด์ใช้ความแตกต่างเป็นเครื่องมือในการประมาณส่วนประกอบอัตโนมัติถอยหลังของรูปแบบ (เช่นเดียวกับที่ฉันคาดเดาว่าความแตกต่างจะมีผลหากซีรีส์นั้นไม่ใช่แบบนิ่งซึ่งพันธบัตรของรัฐในเอกสารที่เชื่อมโยงนั้นความแตกต่างจะเป็นเพียงเครื่องมืออ่อนในกรณีที่ซีรีส์นั้นเป็นการเดินแบบสุ่มบนหน้า 21 )

เป็นคำแนะนำเกี่ยวกับเนื้อหาการอ่านเพิ่มเติมเกี่ยวกับการแนะนำตัวแปรเครื่องมือ

โปสเตอร์อีกชิ้นในการตอบสนองนี้(Charlie) เชื่อมโยงกับสไลด์บางภาพที่เขาเตรียมไว้ที่ฉันชอบและขอแนะนำว่าควรมองดูอินโทรสำหรับตัวแปรเครื่องมือ ฉันจะแนะนำpowerpointนี้ศาสตราจารย์ของฉันเตรียมพร้อมสำหรับการประชุมเชิงปฏิบัติการเป็นการแนะนำเช่นกัน ในฐานะข้อเสนอแนะสุดท้ายสำหรับทุกคนที่ได้รับคำแนะนำในการเรียนรู้เพิ่มเติมเกี่ยวกับตัวแปรเครื่องมือคุณควรค้นหางานของ Joshua Angrist

นี่คือคำตอบเริ่มต้นของฉัน


L.เสื้อ-1D.D2.

ในแอปพลิเคชันทั้งหมดที่ฉันได้เห็นผู้คนใช้ความล่าช้าของตัวแปรอิสระเป็นเครื่องมือในการประเมินความล่าช้าของตัวแปรตาม (ด้วยเหตุผลที่พูดถึง) แต่สิ่งนี้ขึ้นอยู่กับข้อสันนิษฐานว่าตัวแปรอิสระที่ล้าหลังนั้นอยู่ภายนอกกับข้อผิดพลาดในช่วงเวลาที่มีการใช้งาน

ฉันไม่ทราบถึงเหตุผลใด ๆ ที่ความแตกต่างของตัวแปรตามจะถือว่าเป็นภายนอก เท่าที่ฉันรู้ว่ามันไม่ได้รับการฝึกฝนเพื่อสร้างความแตกต่างเพียงด้านเดียวของสมการและจะให้ผลลัพธ์ที่ค่อนข้างไร้เหตุผล ( นี่คือบทความที่วิจารณ์คนบางคนเกี่ยวกับสถานการณ์ย้อนกลับที่พวกเขารวมระดับตัวแปรไว้เป็นตัวทำนาย ชุดที่แตกต่างกัน) หากคุณจัดเรียงคำศัพท์ใหม่ในสมการที่สี่จริง ๆ แล้วมันดูคล้ายกับการทดสอบเพิ่ม Dickey Fuller

ในขณะที่คำตอบที่ง่ายที่สุดคือถามคนที่เขียนรหัสใครสามารถให้ตัวอย่างซึ่งขั้นตอนนี้จะเป็นที่ยอมรับได้หรือสถานการณ์ใด ๆ ที่ขั้นตอนนี้จะให้ผลลัพธ์ที่มีความหมาย? เช่นเดียวกับฉันไม่สามารถคิดเหตุผลเชิงตรรกะใด ๆ ว่าทำไมความแตกต่างจะมีผลต่อระดับยกเว้นในกรณีที่ซีรีส์นั้นไม่อยู่กับที่


สวัสดีแอนดี้ ฉันไม่รู้รหัส stata นั่นคือเหตุผลที่ฉันไม่ได้พูดถึงรหัสที่ตัดออกมาในคำตอบของฉันซึ่งจะต้องเข้าใจว่าเป็นการตอบสนองต่อส่วนของคำถามที่มีการกำหนดเป็นภาษาอังกฤษ
user603

@kwak - ฉันไม่ได้วิจารณ์การโพสต์ของคุณฉันเห็นด้วยกับทุกสิ่งที่คุณพูด ฉันแค่สงสัยว่ามีเหตุผลบางอย่างว่าทำไมบางคนถึงใช้ความแตกต่างเป็นเครื่องมือที่ฉันไม่รู้ ฉันไม่สามารถจินตนาการได้ว่าสถานการณ์ใดที่ความแตกต่างจะตรงตามข้อกำหนดใด ๆ สำหรับกระบวนการดังกล่าว
Andy W

สวัสดีแอนดี้:> ฉันไม่คิดว่าคุณเป็นนักวิจารณ์ โพสต์ของคุณกำลังเน้นประเด็นสำคัญของคำถามที่ไม่เข้าใจทั้ง Rob และฉัน (เป็นที่ยอมรับ) หากมีสิ่งใดแสดงถึงความสำคัญของการทำงานร่วมกัน
user603

+1 ไม่เห็นก่อนหน้านี้ทั้งหมด - ขอบคุณสำหรับการแจ้งปัญหารวมถึงความผิดพลาด / หลักสูตรขนาดเล็กในรูปแบบ stata ฉันใช้ความคิดเห็นแรกของคุณเพื่อบ่งบอกถึงการตีความที่ผิดพลาดและตอบในแง่ทั่วไป ฉันดีใจที่คุณอดทนมากขึ้นและคิดว่ามันออกมา
ARS
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.