แบบจำลองสองขั้นตอน: ความแตกต่างระหว่างแบบจำลอง Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) และตัวแปรเครื่องมือ (เพื่อจัดการกับ endogenity)


16

ฉันกำลังพยายามทำให้เข้าใจถึงความแตกต่างระหว่างการเลือกตัวอย่างและ endogeneity และในทางกลับกันว่าแบบจำลองของ Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) แตกต่างจากการถดถอยตัวแปรเครื่องมือ (เพื่อจัดการกับ endogeneity) อย่างไร

มันถูกต้องหรือไม่ที่จะบอกว่าการเลือกตัวอย่างเป็นรูปแบบเฉพาะของ endogeneity ซึ่งตัวแปรภายนอกนั้นมีโอกาสที่จะได้รับการรักษา?

นอกจากนี้ฉันคิดว่าทั้ง Heckman model และ IV regression เป็น 2-stage model ซึ่งในระยะแรกคาดการณ์ความน่าจะเป็นที่ได้รับการรักษา - ฉันคิดว่าพวกเขาจะต้องแตกต่างกันในแง่ของสิ่งที่พวกเขากำลังประจักษ์วัตถุประสงค์และสมมติฐานของพวกเขา แต่อย่างไร

คำตอบ:


23

เพื่อตอบคำถามแรกของคุณคุณถูกต้องว่าการเลือกตัวอย่างเป็นรูปแบบเฉพาะของ endogeneity (ดู Antonakis et al. 2010 สำหรับการทบทวนพื้นฐานของ endogeneity และการเยียวยาทั่วไป) อย่างไรก็ตามคุณไม่ถูกต้องในการบอกว่าโอกาสที่จะได้รับการรักษา เป็นตัวแปร endogenous เนื่องจากเป็นตัวแปรการรักษาตัวเอง ("การมอบหมายการรักษาแบบไม่สุ่ม") - มากกว่าความเป็นไปได้ที่จะได้รับการรักษา - นั่นคือภายนอกในการเลือกตัวอย่าง โปรดจำไว้ว่า endogeneity หมายถึงสถานการณ์ที่คุณระบุความสัมพันธ์เชิงสาเหตุระหว่างปัจจัย X และปัจจัย Y อย่างไม่ถูกต้องเมื่อสังเกตุ "ความสัมพันธ์" ที่สังเกตได้นั้นเกิดจากปัจจัยอีกอย่างหนึ่งที่ส่งผลต่อทั้ง X และ Y ใส่วิธีอื่น :

yi=β0+β1xi+...+ϵi

endogeneity เกิดขึ้นเมื่อตัวทำนายของคุณตั้งแต่หนึ่งตัวขึ้นไปเกี่ยวข้องกับคำที่ผิดพลาดในแบบจำลอง นั่นคือเมื่อCov(x,ϵ)0 0

สาเหตุทั่วไปของ endogenity รวมถึง:

  1. ละเว้นตัวแปร (บางสิ่งที่เราไม่สามารถวัดได้)
    • แรงจูงใจ / ทางเลือก
    • ความสามารถ / ความสามารถ
    • เลือกเอง
  2. ข้อผิดพลาดการวัด (เราต้องการรวมxjแต่เราสังเกตเพียงxj )
  3. พร้อมกัน / แบบสองทิศทาง (ในเด็กอายุต่ำกว่า 5 ปีความสัมพันธ์ระหว่างตัวบ่งชี้ภาวะโภชนาการ“ น้ำหนักสำหรับอายุ” และว่าเด็กที่ป่วยด้วยโรคล่าสุดอาจจะพร้อมกันหรือไม่

ปัญหาประเภทต่างๆต้องการวิธีแก้ไขที่แตกต่างกันเล็กน้อยซึ่งเป็นจุดที่ความแตกต่างระหว่างการแก้ไขประเภท IV และ Heckman อยู่ แน่นอนว่ามีความแตกต่างในกลไกพื้นฐานของวิธีการเหล่านี้ แต่หลักฐานเหมือนกัน: ซึ่งเป็นการลบ endogeneity โดยนึกคิดผ่านข้อ จำกัด การแยกคือหนึ่งหรือมากกว่าหนึ่งเครื่องมือในกรณีของ IV หรือตัวแปรที่มีผลต่อการเลือก แต่ไม่ ผลลัพธ์ในกรณีของ Heckman

ในการตอบคำถามที่สองคุณต้องคำนึงถึงความแตกต่างในประเภทของข้อ จำกัด ของข้อมูลที่ก่อให้เกิดการพัฒนาโซลูชันเหล่านี้ ฉันชอบที่จะคิดว่าวิธีการใช้เครื่องมือตัวแปร (IV) ถูกใช้เมื่อหนึ่งหรือมากกว่าหนึ่งตัวแปรเป็นภายนอกและไม่มีพร็อกซี่ที่ดีที่จะติดอยู่ในรูปแบบที่จะลบ endogeneity แต่ covariates และผลลัพธ์ที่ได้สำหรับการสังเกตทั้งหมด ในทางกลับกันการแก้ไขแบบ Heckman จะใช้เมื่อคุณมีการตัดทอนนั่นคือข้อมูลจะไม่ถูกตรวจสอบสำหรับตัวอย่างในกรณีที่ค่าของตัวแปรการเลือก == 0

วิธีการของเครื่องมือ (IV)

ลองคิดถึงตัวอย่างเศรษฐมิติแบบคลาสสิกสำหรับการถดถอย IV ด้วยตัวประมาณกำลังสองน้อยที่สุดสองขั้นตอน (2SLS): ผลของการศึกษาต่อรายได้

(1)Earningsi=β0+β1OwnEdi+ϵi

ระดับความสำเร็จของการศึกษาที่นี่อยู่ภายนอกเนื่องจากมีการกำหนดส่วนหนึ่งจากแรงจูงใจและความสามารถของแต่ละบุคคล แรงจูงใจและความสามารถไม่ได้วัดจากการสำรวจครัวเรือนหรือเศรษฐกิจ ดังนั้นสมการที่ 1 สามารถเขียนเพื่อรวมแรงจูงใจและความสามารถอย่างชัดเจน:

(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi

ตั้งแต่และฉันลิตรจะไม่ได้สังเกตจริง 2 สมการสามารถเขียนเป็น:MotivAbil

(3),Earningsi=β0+β1OwnEdi+ui

ที่ (4)ui=β2Motivi+β3Abili+ϵi

ดังนั้นการประเมินแบบไร้การศึกษาเกี่ยวกับผลกระทบของการศึกษาที่มีต่อผลประกอบการผ่าน OLS จะมีอคติ ตอนนี้คุณรู้แล้ว

ในอดีตผู้คนเคยใช้การศึกษาของผู้ปกครองเป็นเครื่องมือสำหรับระดับการศึกษาของผู้เข้าร่วมเนื่องจากพวกเขามีคุณสมบัติครบ 3 ข้อสำหรับเครื่องมือที่ใช้งานได้ ( ):z

  1. จะต้องเกี่ยวข้องกับทำนายภายนอก - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) 0 ,z𝐶𝑜𝑣(𝑧,𝑥)0
  2. ไม่สามารถจะเกี่ยวข้องโดยตรงกับผล - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0และz𝐶𝑜𝑣(𝑧,𝑦)=0
  3. ไม่สามารถที่เกี่ยวข้องกับการสำรวจ (U) ลักษณะ (นั่นคือ Zเป็นภายนอก) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zz𝐶𝑜𝑣(𝑧,𝑢)=0

เมื่อคุณทำประเมินการศึกษาเรื่องของ ( ) โดยใช้การศึกษาของผู้ปกครอง ( M o อีdและD d E d ) ในขั้นตอนแรกและใช้ค่าที่คาดการณ์ของการศึกษา ( ^ O W n E d ) เพื่อประมาณการE R n ฉันn กรัมsในขั้นตอนที่สองคุณมี (ในแง่ง่ายมาก) การประเมินE R n ฉันn กรัมsขึ้นอยู่กับส่วนหนึ่งของOwnEdMomEdDadEdOwnEd^EarningsEarningsที่ไม่ได้กำหนดโดยแรงจูงใจ / ความสามารถOwnEd

การแก้ไข Heckman ประเภท

ดังที่เราได้ก่อตั้งขึ้นมาก่อนการเลือกตัวอย่างที่ไม่ได้สุ่มเป็นประเภทของ endogeneity ในกรณีนี้ตัวแปรที่ละเว้นคือวิธีการที่ผู้คนถูกเลือกในตัวอย่าง โดยทั่วไปเมื่อคุณมีปัญหาการเลือกตัวอย่างผลลัพธ์ของคุณจะถูกตรวจสอบเฉพาะสำหรับผู้ที่เลือกตัวอย่างvariable == 1เท่านั้น ปัญหานี้เป็นที่รู้จักกันในชื่อ "การตัดโดยไม่ตั้งใจ" และวิธีการแก้ปัญหานี้เป็นที่รู้จักกันทั่วไปในชื่อการแก้ไข Heckman ตัวอย่างคลาสสิกในสาขาเศรษฐศาสตร์คือข้อเสนอค่าจ้างของผู้หญิงที่แต่งงานแล้ว:

(5 )Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi

ปัญหาที่นี่คือว่าเป็นเพียงการปฏิบัติสำหรับผู้หญิงที่ทำงานให้ค่าจ้างดังนั้นตัวประมาณการไร้เดียงสาจะลำเอียงในขณะที่เราไม่ทราบว่าข้อเสนอค่าจ้างสำหรับผู้ที่ไม่ได้มีส่วนร่วมในกำลังแรงงานการเลือก ตัวแปรs สมการที่ 5 สามารถเขียนใหม่เพื่อแสดงว่ามันถูกกำหนดร่วมกันโดยแบบจำลองแฝงสองแบบ:Wages

(6)Wagei=Xβ+ϵi

(7)LaborForcei=Zγ+νi

นั่นคือ IFF L o R F o R อี* ฉัน > 0และ W กรัมE = IFF L o R F o R อี* ฉัน0Wage=WageiLaborForcei>0Wage=.LaborForcei0

วิธีการแก้ปัญหาที่นี่จึงเป็นที่จะคาดการณ์โอกาสในการมีส่วนร่วมในกำลังแรงงานในขั้นตอนแรกโดยใช้แบบจำลอง probit และข้อ จำกัด การยกเว้น (เกณฑ์เหมือนกันสำหรับเครื่องมือที่ถูกต้องใช้ที่นี่) คำนวณคาดการณ์ผกผัน Mills อัตราส่วน ( λ ) สำหรับแต่ละสังเกต และในขั้นตอนที่สองประเมินข้อเสนอค่าจ้างโดยใช้λเป็นปัจจัยบ่งชี้ในรูปแบบ A (Wooldridge 2009) ถ้าค่าสัมประสิทธิ์ในλเป็นสถิติเท่ากับศูนย์มีหลักฐานของการเลือกตัวอย่าง (endogeneity) ไม่มีและ OLS ผลที่สอดคล้องกันและสามารถนำเสนอ ถ้าค่าสัมประสิทธิ์ในλλ^λ^λ^λ^ แตกต่างอย่างมีนัยสำคัญทางสถิติจากศูนย์คุณจะต้องรายงานค่าสัมประสิทธิ์จากแบบจำลองที่แก้ไข

อ้างอิง

  1. Antonakis, John, Samuel Bendahan, Philippe Jacquart และ Rafael Lalive 2010“ ในการเรียกร้องเชิงสาเหตุ: การทบทวนและข้อเสนอแนะ” ภาวะผู้นำไตรมาสที่ 21 (6): 1086–1120 ดอย: 10.1016 / j.leaqua.2010.10.010
  2. Wooldridge, Jeffrey M. 2009. เศรษฐมิติเบื้องต้น: แนวทางที่ทันสมัย วันที่ 4 Mason, OH, USA: South-Western, Cengage Learning

1
ในการแก้ไข Heckman-type, วิธีการ interprete อัตราส่วนค่าผกผันมิลส์สำหรับแต่ละการสังเกต? มันบอกจำนวนของคนที่จะทำงานจากประชากรที่ไม่ทำงานในช่วงเวลาที่กำหนดหรือไม่?
Quirik

2

เราควรแยกความแตกต่างระหว่างรูปแบบการเลือกตัวอย่างของ Heckman (ซึ่งมีเพียงตัวอย่างเดียวที่สังเกต) และการแก้ไขประเภท Heckmanสำหรับการเลือกด้วยตนเองซึ่งสามารถทำงานในกรณีที่สังเกตสองตัวอย่าง หลังเรียกว่าวิธีการควบคุมฟังก์ชั่นและจำนวนเงินที่จะรวมไว้ในขั้นตอนที่สองของคุณคำที่ควบคุมสำหรับ endogeneity

ให้เรามีกรณีมาตรฐานที่มีตัวแปรดัมมี endogeneous D ซึ่งเป็นเครื่องมือ Z:

Y=β+β1D+ϵ
D=γ+γ1Z+u

Both approaches run a first stage (D on Z). IV uses a standard OLS (even if D is a dummy) Heckman uses a probit. But besides this, the main difference is on the way they use this first stage into the main equation:

  • IV: break the endogeneity by decomposing D into parts uncorrelated with ϵ, given by the prediction of D: Y=β+β1D^+ϵ
  • Heckman: model the endogeneity: keep the endogenous D, but add a function of the predicted values of the first stage. For this case, it is a pretty complicated function: Y=β+β1D+β2[λ(D^)λ(D^)]+ϵ where λ() is the inverse Mills ratio

The advantage of the Heckman procedure is that it provides a direct test for endogeneity: the coefficient β2. On the other side, the Heckman procedure relies on the assumption of joint normality of the errors, while the IV does not make any such assumption.

So you have the standard story that with normal errors, the control function will be more efficient (especially if ones uses the MLE instead of the two-step shown here) than the IV, but that if the assumption does not hold, IV would be better. As researchers have become more suspicious about the assumption of normality, the IV is used more often.


0

From Heckman, Urzua and Vytlacil (2006):

Example of selection bias: Consider the effects of a policy on the outcome of a country (e.g. GDP). If the countries that would have done well in terms of the unobservable even in the absence of the policy are the ones that adopt the policy, then the OLS estimates are biased.

Two main approaches have been adopted to solve this problem: (a) selection models and (b) instrumental variable models.

The selection approach models levels of conditional means. The IV approach models the slopes of the conditional means. IV does not identify the constants estimated in selection models.

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

When using control functions with curvature assumptions, one does not require an exclusion restriction (does not require ZX) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.