จะเกิดอะไรขึ้นถ้า "ตัวแปรควบคุม" ก็เช่นเดียวกัน


13

ฉันทำงานในเศรษฐศาสตร์การเมืองและแบบจำลองจำนวนมากรวมถึงตัวแปรควบคุม "ไร้เดียงสา" เช่นประชากรความไม่เท่าเทียมมรดกในอาณานิคมเป็นต้นเพื่อให้ผู้เขียนสามารถอ้างถึงความเป็นกลางของตัวแปรอิสระที่พวกเขาสนใจ

แต่ถ้าตัวแปรควบคุมใด ๆ เหล่านี้มีอยู่ในตัวของตัวแปรที่ละเว้นบางตัวสิ่งนี้จะไม่ทำลายความเป็นอิสระของตัวแปรอิสระทั้งหมดหรือไม่?

ถ้านั่นเป็นเรื่องจริงเราจะทำอะไรได้บ้าง? ปล่อยให้ตัวแปรควบคุมเหล่านั้นออกมาและพวกมันนำไปสู่การละเว้นตัวแปรที่ทำให้เกิดอคติตัวเอง รวมผู้ที่อยู่ในและพวกเขาจะปนเปื้อนทุกอย่างในรูปแบบ

ตัวอย่าง: นักวิจัยต้องการทราบว่าความไม่เท่าเทียมนำไปสู่ความรุนแรงหรือไม่และเขาควบคุมบางสิ่ง: เห็นว่าความไม่เท่าเทียมนั้นมีแนวโน้มภายนอก เพราะตัวแปรละเว้นระดับความเห็นแก่ตัว ) เขาจะพยายามหาตัวแปรที่มีประโยชน์สำหรับความไม่เท่าเทียมกัน แต่การเจริญเติบโตและการพัฒนาไม่น่าจะเป็นปัจจัยภายนอก (เช่นมีความสัมพันธ์กับระดับของความบริสุทธิ์ใจ ) ด้วยใช่ไหม

Vผมโอล.อีnอี=ผมnอีQยูaล.ผมเสื้อY+GRโอWเสื้อชั่วโมง+Dอีโวลต์อีล.โอพีม.อีnเสื้อ+ε

ตัวอย่างนี้อาจดูงี่เง่า แต่ประเด็นของฉันอยู่ในงานเศรษฐกิจการเมือง / การพัฒนามีหลายปัจจัยที่เล่น (ยังละเว้น) ที่ฉันกลัวว่าตัวแปรหลายอย่างที่รวมอยู่ใน LHS นั้นเป็นภายนอก แต่บ่อยครั้งที่นักวิจัยมองหาเครื่องมือสำหรับตัวแปรอิสระสัตว์เลี้ยงของเขาเท่านั้น


อีกสิ่งหนึ่งที่ควรพิจารณาคือปัญหาที่เรียกว่า "การควบคุมที่ไม่ดี" - สถานการณ์เมื่อการควบคุมเป็นตัวแปรผลลัพธ์ ฉันขอแนะนำให้คุณอ่านหัวข้อ 3.2.3 ใน Angrist และ Pischke ที่มีการเฉลิมฉลอง "เศรษฐีที่ไม่เป็นอันตรายมากที่สุด" เพื่อทำความเข้าใจในหัวข้อนี้และทำไมมันจึงสำคัญหากคุณต้องการทำความเข้าใจคำถามของคุณให้ดีขึ้น
MauOlivares

คำตอบ:


10

"แต่ถ้าตัวแปรควบคุมใด ๆ เหล่านี้มีอยู่ภายนอกกับตัวแปรที่ถูกละเว้นบางตัวสิ่งนี้จะไม่ทำให้ความไม่เป็นกลางของตัวแปรอิสระทั้งหมดหรือไม่"

ฉันไม่ต้องการเน้นเรื่องนี้มากเกินไป แต่ก็คุ้มค่าที่จะกล่าวว่านี่ไม่เป็นความจริง แหล่งที่มาต่อไปนี้จะให้ความเข้าใจเกี่ยวกับ "การปนเปื้อน" ที่คุณกล่าวถึง เป็นตัวอย่างง่ายๆสมมติว่ากระบวนการสร้างข้อมูลนั้นได้รับจาก ที่Zไม่มีการตรวจสอบ ให้C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
Zโอโวลต์(X1,Z)=0และ C o วี( X 1 , X 2 ) = 0 จากนั้นเป็นที่ชัดเจนว่า X 2เป็น "ภายนอก" แต่โปรดสังเกตว่าเนื่องจาก C o v ( X 1 , Z ) = 0 การประมาณ β 1 ของเราจะยังคงโอเค: plimโอโวลต์(X2,Z)0โอโวลต์(X1,X2)=0X2โอโวลต์(X1,Z)=0β1 ที่X * 1 =M2X1และM2=[ฉัน-X2(X ' 2 X2)-1X ' 2 ] เนื่องจากCov(X1,X2)=0,X1
PLIMβ^1=β1+γโอโวลต์(X1* * * *,Z)VaR(X1* * * *)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 1 ดังนั้น C o วี( X * 1 , Z ) = 0X1=X1Cov(X1,Z)=0

"พวกเราทำอะไรได้บ้าง?"

หนึ่งในความท้าทายหลักในการทำเศรษฐมิติที่ดีคือการคิดถึงกลยุทธ์การชี้บ่งที่เป็นไปได้ ในประเภทของสถานการณ์ที่คุณอธิบายอาจไม่มีอะไรที่คุณสามารถทำได้ แต่พยายามเข้าใกล้ปัญหาด้วยวิธีอื่น


ในขณะที่คุณพูดถูกฉันจะไม่เน้นประเด็นนี้ ฉันอยากจะบอกว่าโดยทั่วไปเราไม่สามารถแยกแยะความเอนเอียงของตัวแปรใด ๆ ได้แทนที่จะบอกว่าในบางสถานการณ์มันก็โอเคเพราะเรามักจะไม่รู้จัก DGP
FooBar

1) คุณสามารถชี้ให้ฉันอ้างอิงที่เป็นβได้มาทางนี้ ฉันไม่ได้สอนเรื่องนี้ในสาขาเศรษฐศาสตร์ของฉัน 2) คุณใช้C o v ( X 1 , Z ) = 0ในการพิสูจน์ได้อย่างไร ดูเหมือนว่าC o v ( X 1 , X - 2 ) = 0เพียงพอแล้ว 3) ฉันเห็นด้วยกับ @FooBar ว่าC o v ( X 1 , X 2 ) = 0เป็นข้อยกเว้นไม่ใช่บรรทัดฐาน แน่นอนถ้าCβ^Cov(X1,Z)=0Cov(X1,X2)=0Cov(X1,X2)=0เราจะไม่สนใจควบคุม X 2ในตอนแรก (ยกเว้นเพื่อเพิ่มความแม่นยำ) Cov(X1,X2)=0X2
ไฮเซนเบิร์ก

@FooBar ฉันเห็นด้วย ฉันได้อัปเดตโพสต์เพื่อเน้นว่านี่เป็นกรณีพิเศษ เท่าที่ประเด็นเกี่ยวกับการไม่รู้จัก DGP นั้นเป็นความจริง แต่ไม่ thats จุด. การวิเคราะห์ใด ๆ จะต้องตั้งสมมติฐานเกี่ยวกับ DGP และคุณภาพของการวิเคราะห์นั้นขึ้นอยู่กับคุณภาพของสมมติฐาน ที่มาที่ฉันให้ไว้เพื่อแสดงตัวอย่างของสมมติฐาน (ถึงแม้ว่าจะเป็นข้อสันนิษฐานที่แข็งแกร่งมาก) ที่จะทำให้คุณได้รับสิ่งที่คุณต้องการ
jmbejara

@ ไฮเซนเบิร์ก: 1) คุณช่วยเปิดคำถามใหม่เกี่ยวกับเรื่องนี้ได้ไหม? หากคุณเพียงคัดลอกและวางที่มาและนำเสนอคำถามของคุณมันจะดีที่สุด 2) เป็นสิ่งจำเป็นเมื่อฉันบอกว่าC o วี( X * 1 , Z ) = 0 3) คุณพูดถูก ถ้าเราสนใจทำนายYมันจะสำคัญ แต่ใช่ว่าเป็นจุดที่ดี ในทางกลับกันอาจมีประโยชน์ที่จะต้องทราบว่าขนาดของอคติขึ้นอยู่กับความสัมพันธ์ที่คุณเชื่อX 1และXCov(X1,Z)=0Cov(X1,Z)=0YX1เป็น X2
jmbejara

1
@jmbejara ผมโพสต์ 1) เป็นคำถามที่แยกต่างหาก โปรดอย่าลังเลที่จะแก้ไขคำถาม / ชื่อของฉันเนื่องจากฉันไม่ทราบวิธีการใช้ชื่ออย่างชาญฉลาดและมีประโยชน์สำหรับ Googler ในกรณีนี้
ไฮเซนเบิร์ก

6

ทั้งหมดแข็งแกร่งเกินไป แต่อาจมีบางอย่าง ปัญหานี้เรียกว่า "การเลอะ" ดูข้อพิสูจน์ในบันทึกการบรรยายของกรีนในสไลด์ 5

Emily Oster มีกระดาษที่ใช้งานได้ดี (และคำสั่ง Stata psacalc) ที่สามารถช่วยผูกอคติ


5

ในบริบทของการประมาณกำลังสองน้อยที่สุดวิธีที่เราต้อง (พยายาม) จัดการกับ endogeneity ของ regressors ที่เป็นไปได้คือผ่านการประมาณค่าตัวแปรเครื่องมือ วิธีนี้ไม่ได้ขึ้นอยู่กับการมีเพียงหนึ่ง regressor ภายนอก - คุณอาจมีจำนวนมาก ในกรณีดังกล่าวแน่นอนว่าคุณจำเป็นต้องค้นหาเครื่องมือเพิ่มเติมซึ่งทำให้สิ่งต่าง ๆ ยากขึ้น แต่โดยหลักการแล้ววิธีการจะทำงานในลักษณะเดียวกัน

การประมาณค่า IV ไม่ได้แก้ปัญหาเรื่องอคติ แต่ให้ความมั่นคงสำหรับตัวประมาณเท่านั้น แต่ไม่มีสิ่งใดแก้ปัญหาเรื่องอคติบาร์อย่างเข้มงวดตัวเอง (แล้วมีวิธีการลดอคติ) แต่ถ้าคุณดูเว็บไซต์ SE อื่นCross Validatedซึ่งเกี่ยวกับสถิติคุณจะเห็นว่านักสถิติที่มีประสบการณ์ไม่ได้ให้น้ำหนักกับคุณสมบัติของความเป็นกลางมากนัก - พวกเขามุ่งเน้นไปที่ Mean-Square Efficiency สำหรับคุณสมบัติตัวอย่าง จำกัด และสม่ำเสมอสำหรับคุณสมบัติตัวอย่างขนาดใหญ่


1
วิธีการที่ถูกต้องคือการหาเครื่องมือสำหรับตัวแปรภายนอกทั้งหมดใช่มั้ย
ไฮเซนเบิร์ก

1
ใช่นี่คือวิธี
Alecos Papadopoulos

5

นี่คือตัวอย่างของสิ่งที่นักสถิติแอนดรูว์เจลแมนเรียกว่า "การเข้าใจผิดของการควบคุมเพื่อผลลัพธ์ระดับกลาง" นี่คือคำอธิบายของเขาเกี่ยวกับความผิดพลาดที่เกิดขึ้นเมื่อนักวิจัยถามว่ามีลูกสาวมากขึ้นที่เปลี่ยนการเมืองของคุณหรือไม่ การตัดสินใจที่จะมีลูกคนที่สองนั้นจำเป็นต้องมีเงื่อนไขในการตัดสินใจครั้งก่อนที่จะมีลูกคนแรกและดูเหมือนว่าจะเป็นตัวอย่างที่ชัดเจนของการควบคุมตัวแปรการตัดสินใจที่อยู่ภายนอก

มีการศึกษาหลายครั้งในช่วงไม่กี่ปีที่ผ่านมาโดยดูจากการตัดสินใจทางเศรษฐกิจของผู้ปกครองของบุตรชายเมื่อเทียบกับผู้ปกครองของลูกสาว .... คุณลักษณะทั่วไปของการศึกษาทั้งหมดนี้คือพวกเขาควบคุมจำนวนเด็กทั้งหมด ... . ตั้งแต่แรกพบการควบคุมจำนวนเด็กทั้งหมดดูสมเหตุสมผล อย่างไรก็ตามมีความยากลำบากในการที่จำนวนเด็กทั้งหมดเป็นผลกลางและการควบคุมสำหรับมัน (ไม่ว่าจะโดยการย่อยข้อมูลตาม #kids หรือการใช้ #kids เป็นตัวแปรควบคุมในรูปแบบการถดถอย) สามารถอคติประมาณการ ของผลกระทบเชิงสาเหตุของการมีลูกชาย (หรือลูกสาว)

หากต้องการดูสิ่งนี้สมมติว่าผู้ปกครองที่อนุรักษ์นิยมทางการเมืองมีแนวโน้มที่จะต้องการลูกชายและถ้าพวกเขามีลูกสาวสองคนพวกเขาก็จะมีแนวโน้มที่จะลองลูกคนที่สาม ในการเปรียบเทียบเสรีมีแนวโน้มที่จะหยุดที่ลูกสาวสองคน ในกรณีนี้ถ้าคุณดูข้อมูลเกี่ยวกับครอบครัวที่มีลูกสาว 2 คนอนุรักษ์นิยมจะถูกนำเสนอและข้อมูลอาจแสดงความสัมพันธ์ของลูกสาวกับเสรีนิยมทางการเมือง - แม้ว่าการมีลูกสาวจะไม่มีผลอะไรเลย! ...

วิธีการแก้ปัญหาคือการใช้วิธีอนุรักษ์นิยมแบบมาตรฐาน (ในแง่สถิติ!) ในการอนุมานเชิงสาเหตุซึ่งจะถอยกลับตัวแปรการรักษาของคุณ (เพศของเด็ก) แต่การควบคุมเฉพาะสิ่งที่เกิดขึ้นก่อนที่เด็กจะเกิด ตัวอย่างเช่นเราสามารถเปรียบเทียบผู้ปกครองที่มีลูกคนแรกเป็นผู้หญิงกับผู้ปกครองที่มีลูกคนแรกเป็นเด็กชาย เราสามารถดูการเกิดครั้งที่สองได้โดยเปรียบเทียบผู้ปกครองที่มีลูกคนที่สองเป็นผู้หญิงกับผู้ที่มีลูกคนที่สองเป็นเด็กผู้ชาย - ควบคุมเพศของลูกคนแรก และสำหรับลูกคนที่สามเป็นต้น

การมีบุตรชายทำให้คุณหัวโบราณมากขึ้นหรือไม่? อาจจะอาจจะไม่. ปัญหาเกี่ยวกับการควบคุมเพื่อให้ได้ผลลัพธ์ระดับกลาง

เกี่ยวกับความคิดเห็นของคุณว่า "ปล่อยตัวแปรควบคุมเหล่านั้นออกมาและพวกเขานำไปสู่การละเว้นตัวแปรอคติตัวเอง" นี่ดูเหมือนจะขึ้นอยู่กับประเภทของเครื่องมือที่คุณได้รับ เครื่องมือที่ดีอย่างหนึ่งที่จริงๆตอบสนองความต้องการที่จะต้องมีความเป็นอิสระจากคำข้อผิดพลาดในขั้นตอนที่สองและเป็นอิสระจากทุกสิ่งทุกอย่างที่คุณควบคุมโดยตรง นั่นคือเครื่องมือเปลี่ยน Y เฉพาะผ่าน X ดังนั้นเครื่องมือที่เหมาะสมสำหรับความไม่เท่าเทียมจะต้องเป็นอิสระจากการเติบโตและการพัฒนา (โชคดีพบว่า!) ถ้าเราเชื่อว่าสมการความรุนแรงเป็นสมการเชิงโครงสร้างสำหรับความรุนแรง


1

ตามที่โพสต์อื่น ๆ ได้ชี้ให้เห็น, regressors ภายนอกอาจปนเปื้อนการประเมินพารามิเตอร์ทั้งหมดในการถดถอยเมื่อ regressors มีความสัมพันธ์

X1X2X2X1

β^1X2X1X2

พิจารณาโมเดลต่อไปนี้ (คล้ายกับสัญกรณ์ของ @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX21nx1(k)z(l)p0(k,l)

X2X1X1ZX2

1nx1(k)QX2z(l)p0
(k,l)QX2X2QX2[InX2(X2X2)1X2]β1

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
X1X2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.