“ endogeneity” และ“ exogeneity” หมายถึงอะไรอย่างมาก?


43

ฉันเข้าใจว่าคำจำกัดความพื้นฐานของ endogeneity คือ ไม่พอใจ แต่สิ่งนี้มีความหมายอย่างไรในโลกแห่งความจริง? ฉันอ่านบทความ Wikipedia พร้อมตัวอย่างอุปสงค์และอุปทานพยายามทำความเข้าใจ แต่ไม่ได้ช่วยอะไรจริงๆ ฉันเคยได้ยินคำอธิบายอื่น ๆ เกี่ยวกับภายนอกและภายนอกว่าอยู่ในระบบและอยู่นอกระบบและนั่นก็ไม่สมเหตุสมผลสำหรับฉัน

Xϵ=0

1
คำตอบทั้งสามด้านล่างดีมาก (+1 ต่อข้อ) หากคุณต้องการแหล่งข้อมูลอื่นผมหารือเกี่ยวกับหัวข้อนี้ที่นี่: ประมาณแทน1 x 1 + B 2 x 2 + B 3 x 3b1x1+b2x2b1x1+b2x2+b3x3และแสดงให้เห็นว่ามัน w / Rจำลอง
gung - Reinstate Monica

1
เมื่อคุณมี endogeneity การถดถอยของคุณจะไม่มีตัวประมาณหรือสถิติทดสอบที่ใช้งานได้อีกต่อไป
อีวาน

1
ฉันเห็นด้วยกับ @ gung และต้องการเน้นว่าคำตอบที่สมบูรณ์จะตอบว่า "ใช้เพื่อจุดประสงค์ใด" หลายคำตอบข้างต้นจัดการกับคำถามนี้ได้เป็นอย่างดี
Matthew Drury

@ แมทธิวดูเหมือนว่าฉันโพสต์นี้จะพยายามตอบคำถาม "สิ่งนี้หมายความว่าอะไรในโลกแห่งความจริง" มันจะเป็นการดีถ้าได้เห็นคำอธิบายที่เป็นเนื้อหนังเพื่อให้ผู้คนได้ชื่นชมมันได้ดีขึ้น
whuber

@ เมื่อไรฉันไม่รู้มันสั้นมากฉันบอกไม่ได้จริงๆ แต่ฉันคิดเช่นว่าแบบจำลองโดยประมาณจะมีประโยชน์สำหรับการคาดการณ์ (หรือเพียงแค่การเชื่อมโยง) แม้ว่าคุณจะมี endogeneity ดังนั้น "ไม่มีตัวประมาณที่ใช้งานได้" ดูเหมือนจะเป็นเท็จโดยไม่ต้องชี้แจง
Matthew Drury

คำตอบ:


69

คำตอบของ JohnRos นั้นดีมาก ในภาษาอังกฤษแบบเรียบๆความเป็นเอกภาพหมายความว่าคุณมีสาเหตุที่ไม่ถูกต้อง แบบจำลองที่คุณจดบันทึกและประมาณการณ์นั้นไม่ถูกต้องตามวิธีการทำงานของสาเหตุในโลกแห่งความเป็นจริง เมื่อคุณเขียน:

Yi=β0+β1Xi+ϵi

คุณสามารถคิดถึงสมการนี้ได้หลายวิธี คุณอาจคิดว่ามันเป็นวิธีที่สะดวกในการทำนายค่าตามค่าของX คุณอาจคิดว่ามันเป็นวิธีที่สะดวกในการสร้างแบบจำลองE { Y | X }YXE{Y|X} }ในทั้งสองกรณีนี้ไม่มีสิ่งใดที่เป็น endogeneity และคุณไม่จำเป็นต้องกังวลเกี่ยวกับมัน

อย่างไรก็ตามคุณสามารถคิดถึงสมการที่เป็นสาเหตุของการรวมตัว คุณสามารถคิดถึงเป็นคำตอบสำหรับคำถาม: "จะเกิดอะไรขึ้นกับYหากฉันเข้าสู่ระบบนี้และเพิ่มX 1 โดยทดลอง" หากคุณต้องการคิดแบบนั้นให้ใช้ OLS เพื่อประมาณจำนวนที่สมมติว่า:β1YX

  1. ทำให้ YXY
  2. ทำให้ YϵY
  3. ไม่ก่อให้เกิด XϵX
  4. ไม่ทำให้เกิด XYX
  5. ไม่มีสิ่งใดที่ทำให้เป็นสาเหตุให้XϵX

ความล้มเหลวของคนใดคนหนึ่งใน 3-5 จะส่งผลให้หรือไม่มากเท่าC o วี ( X , ε ) 0 ตัวแปรเครื่องมือเป็นวิธีหนึ่งในการแก้ไขความจริงที่ว่าคุณมีสาเหตุที่ไม่ถูกต้อง การทดลองควบคุมแบบสุ่มที่ดำเนินการอย่างสมบูรณ์แบบนั้นเป็นวิธีการบังคับ 3-5 ให้เป็นจริง หากคุณเลือกXแบบสุ่มแสดงว่าไม่ได้เกิดจากY , ϵE{ϵ|X}0Cov(X,ϵ)0XYεหรือสิ่งอื่นใด วิธีการที่เรียกว่า "การทดลองตามธรรมชาติ" นั้นเป็นความพยายามที่จะค้นหาสถานการณ์พิเศษในโลกที่มีความจริง 3-5 ข้อแม้ว่าเราไม่คิดว่า 3-5 จะเป็นเรื่องจริง

ในตัวอย่างของ JohnRos ในการคำนวณค่าจ้างการศึกษาคุณต้องมีการตีความสาเหตุของβ1แต่มีเหตุผลที่ดีที่จะเชื่อว่า 3 หรือ 5 เป็นเท็จ

ความสับสนของคุณเป็นที่เข้าใจแม้ว่า เป็นเรื่องปกติมากในหลักสูตรเกี่ยวกับตัวแบบเชิงเส้นสำหรับผู้สอนเพื่อใช้การตีความเชิงสาเหตุของβ1ฉันให้ไว้ข้างต้นในขณะที่แสร้งทำเป็นไม่แนะนำให้ใช้สาเหตุโดยอ้างว่า "มันเป็นเพียงสถิติ มันเป็นเรื่องขี้ขลาด แต่ก็เป็นเรื่องธรรมดามาก

ในความเป็นจริงมันเป็นส่วนหนึ่งของปรากฏการณ์ขนาดใหญ่ใน biomedicine และสังคมศาสตร์ มันเกือบจะเป็นกรณีที่เราพยายามหาสาเหตุเชิงสาเหตุของต่อYXY --- นั่นคือวิทยาศาสตร์ที่เกี่ยวข้อง ในทางกลับกันก็มักจะเป็นกรณีที่มีเรื่องราวบางอย่างที่คุณสามารถบอกได้ว่านำไปสู่ข้อสรุปว่าหนึ่งใน 3-5 เป็นเท็จ ดังนั้นจึงมีการฝึกฝนที่ไม่สุภาพและทำให้เกิดความไม่ซื่อสัตย์ซึ่งเราได้คัดค้านการคัดค้านโดยบอกว่าเราแค่ทำงานด้านการเชื่อมโยงจากนั้นก็แอบตีความสาเหตุที่อื่น (ตามปกติในบทนำและบทสรุปของบทความ)

หากคุณสนใจจริงๆคนที่อ่านคือจูเดียเพิร์ล James Heckman ก็ดีเช่นกัน


5
+1 คำอธิบายและความเห็นที่ยอดเยี่ยม ยินดีต้อนรับสู่เว็บไซต์ของเรา!
whuber

2
คุณสามารถระบุได้ว่าอะไรที่ Heckman แนะนำให้คุณทำงานเพื่อรับความเข้าใจพื้นฐานและมั่นคงในเรื่องนี้?
Kenny LJ

ฉันมีคำถาม: วิธีการตรวจสอบว่าหรือE [ ϵ X ] = 0เป็นความจริง“ ใช้ข้อมูลของคุณในมือ (แทนที่จะเป็นความรู้เกี่ยวกับโดเมนของคุณ) ซึ่งอาจไม่ได้มาจากการทดลองเช่นชุดข้อมูลเชิงสังเกตการณ์”? ฉันรู้สึกว่าไม่มีทางที่จะทดสอบE [ ϵ | X ] = 0หรือE [ ϵ X ] = 0เพียงแค่ใช้ข้อมูลเนื่องจากϵไม่สามารถสังเกตได้ดังนั้นจึงเป็นความจริงที่ว่า endogeneity ไม่สามารถทดสอบโดยใช้ข้อมูลได้?E[ε|X]=0E[εX]=0E[ε|X]=0E[εX]=0ε
KevinKim

1
@KevinKim ใช่ ไม่สามารถทดสอบได้โดยใช้สถิติ ϵไม่สามารถเรียกคืน / ประเมินได้ยกเว้นว่าจะทำการประมาณค่าแล้วจึงทำให้เหลืออยู่ การกู้คืนสามารถทำได้หลังจากการประเมิน การกู้คืนจะถูกต้องก็ต่อเมื่อการประมาณการนั้นทำอย่างถูกต้องเท่านั้น การประมาณค่าทำได้อย่างถูกต้องเฉพาะเมื่อ E { ϵ | X } = 0 ดังนั้นวงกลม ข้อมูลที่ E { ϵ | X } = 0ต้องมาจากความรู้ที่สำคัญและไม่ใช่สถิติ ตัวอย่างของสิ่งนี้คือCE{ε|X}=0εE{ε|X}=0E{ε|X}=0โดยที่ eคือส่วนเหลือของ OLS สิ่งนี้เป็นจริงไม่ว่า E { ϵ | X } = 0 Cโอโวลต์{X,อี}=0อีE{ε|X}=0
Bill

2
@KevinKim ถูกต้องแล้ว และมันไม่ใช่แค่โมเดลเชิงเส้น มันคือสถิติทั้งหมด โปรดสังเกตว่าเมื่อมีคนพูดว่า "ความสัมพันธ์ไม่ใช่สาเหตุ" พวกเขาไม่มีทางเคยไปบอกคุณว่าอะไรคือสาเหตุ สาเหตุคือทฤษฎีและสามารถเป็นทฤษฎีเท่านั้น แม้แต่ (ไม่มีที่ติ --- และไม่เคยทำ) RCT ไม่ได้บอกสาเหตุของคุณโดยไม่มีทฤษฎี
Bill

18

ให้ฉันใช้ตัวอย่าง:

สมมติว่าคุณต้องการวัดผลกระทบ (สาเหตุ) ของการศึกษาต่อรายได้ คุณใช้เวลาปีการศึกษาและข้อมูลรายได้แล้วถอยกลับไปหาคนอื่น คุณกู้คืนสิ่งที่คุณต้องการหรือไม่? อาจจะไม่! เนื่องจากรายได้นั้นเกิดจากสิ่งอื่นนอกเหนือจากการศึกษา แต่มีความสัมพันธ์กับการศึกษา ลองเรียกพวกเขาว่า "ทักษะ": เราสามารถสรุปได้อย่างปลอดภัยว่าปีการศึกษาได้รับผลกระทบจาก "ทักษะ" ในขณะที่คุณมีทักษะมากขึ้นเท่าไหร่การได้รับการศึกษาก็จะยิ่งง่ายขึ้นเท่านั้น ดังนั้นหากคุณถอยหลังปีการศึกษาต่อรายได้ผู้ประเมินผลการศึกษาจะดูดซับผลกระทบของ "ทักษะ" และคุณจะได้รับการประเมินในแง่ดีเกี่ยวกับผลตอบแทนการศึกษา นี่คือผลกระทบของการศึกษาต่อรายได้นั้นเพิ่มขึ้นอย่างเอนเอียงเพราะการศึกษาไม่ได้เป็นรายได้ภายนอก

Endogeneity เป็นเพียงปัญหาถ้าคุณต้องการกู้คืนผลกระทบเชิงสาเหตุ (ต่างจากความสัมพันธ์เพียงอย่างเดียว) นอกจากนี้หากคุณสามารถออกแบบการทดสอบคุณสามารถรับประกันได้ว่าโดยการมอบหมายแบบสุ่ม น่าเศร้าที่เรื่องนี้เป็นไปไม่ได้ในสังคมศาสตร์Cโอโวลต์(X,ε)=0


1
ขอบคุณสำหรับตัวอย่างและคำอธิบาย ฉันยังคงไม่รู้เรื่องเล็กน้อยเกี่ยวกับความหมายและความเป็นเอกฐานในภาษาอังกฤษแบบธรรมดา ฉันหมายถึงอะไรอย่างแน่นอนเมื่อฉันพูดว่าตัวแปรเป็นภายนอกหรือสำหรับเรื่องนั้นจากภายนอก
user25901

@ JohnRos คุณเขียนว่า "Endogeneity เป็นเพียงปัญหาถ้าคุณต้องการที่จะกู้คืนผลกระทบเชิงสาเหตุ" จากนั้นดูเหมือนว่าฉันยังเป็นไปได้ที่จะบอกว่า: "ความเป็นเอกเทศบ่งบอกถึงเวรกรรม" ... ฉันไม่เคยอ่านวลีนั้น ... ถ้ามันถูกต้องดูเหมือนว่าฉันที่ตำราเรียนหลายคนโดยปริยายบางครั้งก็อนุมานว่าการอนุมานเชิงสาเหตุเป็นเป้าหมายปกติ
markowitz

@markowitz: เมื่อใดก็ตามที่คุณอนุมานเกี่ยวกับสัมประสิทธิ์การถดถอยมันบอกเป็นนัย ๆ ว่าคุณต้องการเวรกรรม หากคุณต้องการการคาดการณ์เท่านั้นค่าของสัมประสิทธิ์ไม่สำคัญเลยหากการคาดการณ์นั้นดี มันเป็นความจริงที่ตำราคลาสสิกไม่ได้แยกความแตกต่างนี้เพราะก่อนหน้าที่การทำนายไม่ใช่ "วิทยาศาสตร์พื้นฐาน" แต่ค่อนข้าง "วิศวกรรม" มากกว่าและยกโทษให้ฉันสำหรับการสรุปแบบหยาบนี้
JohnRos

ขอบคุณ JohnRos ให้ฉันถามคำถามอื่นเกี่ยวกับประเด็นที่เกี่ยวข้อง ปัญหาของการประมาณค่าความเอนเอียงของสัมประสิทธิ์ทำให้เข้าใจได้เฉพาะในตัวแบบการถดถอยเชิงสาเหตุขณะที่เป้าหมายการทำนายไม่แน่นอน มันถูก? ฉันถามสิ่งนี้เพราะประเด็นนี้ไม่ชัดเจนในสถานที่ใด ๆ
markowitz

8

User25901 กำลังมองหาคำอธิบายที่เรียบง่ายและตรงไปตรงมาในโลกแห่งความจริงสิ่งที่คำศัพท์ภายนอกและภายนอกหมายถึง การตอบสนองด้วยตัวอย่างที่เป็นความลับหรือความหมายทางคณิตศาสตร์ไม่ได้ตอบคำถามที่ถาม

ฉันจะเข้าใจความหมายของคำศัพท์ทั้งสองนี้ได้อย่างไร

นี่คือสิ่งที่ฉันมาด้วย:

Exo - ภายนอก, ภายนอก Endo - ภายใน, ภายใน -genous - ต้นกำเนิดมา

Exogeneous: ตัวแปรเป็นแบบจำลองภายนอกหากไม่ได้ถูกกำหนดโดยพารามิเตอร์และตัวแปรอื่น ๆ ในแบบจำลอง แต่มีการตั้งค่าภายนอกและการเปลี่ยนแปลงใด ๆ นั้นมาจากแรงภายนอก

ภายนอก: ตัวแปรภายในหนึ่งรุ่นถ้าเป็นอย่างน้อยฟังก์ชันบางส่วนของพารามิเตอร์และตัวแปรอื่น ๆ ในแบบจำลอง


7
เหล่านี้เป็นคำจำกัดความที่ใช้งานง่าย แต่ไม่จำเป็นที่จะต้องละทิ้งคำตอบอื่น ๆ
gung - Reinstate Monica

3
การดึงดูดนิรุกติศาสตร์สามารถให้ประโยชน์อย่างใดอย่างหนึ่งสำหรับการจดจำคำศัพท์ทางเทคนิคหมายถึง (มันทำงานได้ดีสำหรับฉัน) แต่การใช้นิรุกติศาสตร์เพื่อพิสูจน์พวกเขาคือการหลีกเลี่ยง คำศัพท์เล็กน้อย (ในสถิติและที่อื่น ๆ ) มีความเข้าใจอย่างถูกต้องผ่านการศึกษาอย่างละเอียดของคำจำกัดความทางคณิตศาสตร์ การเข้าใจคำตอบนี้ต้องใช้ความคิดที่ชัดเจนเกี่ยวกับการใช้คำและวลีเช่น "กำหนดโดย" "ตั้งค่าภายนอก" "เปลี่ยนเป็น" "พลังภายนอก" และ "บางส่วน [a] ฟังก์ชั่น" ซึ่งไม่มีในทันที ชัดเจนหรือไม่คลุมเครือ
whuber

6

การถดถอย OLS โดยการก่อสร้างให้ 0 จริงแล้วไม่ถูกต้อง มันทำให้ X ' ε = 0โดยการก่อสร้าง ค่าประมาณโดยประมาณของคุณนั้นไม่สัมพันธ์กับ regressors ของคุณ แต่ค่าประมาณโดยประมาณของคุณนั้น "ผิด" ในแง่หนึ่ง X'ε=0X'ε^=0

หากข้อมูลที่ก่อให้เกิดกระบวนการจริงดำเนินการโดยและZมีความสัมพันธ์กับXแล้วX ' n o ฉันs E0Y=α+βX+γZ+nโอผมsอีZXX'nโอผมsอี0ถ้าคุณพอดีถดถอยออกจาก . แน่นอนที่เหลือโดยประมาณจะ uncorrelated กับX พวกเขามักจะเป็นเช่นเดียวกับที่บันทึก( e x ) = xZXเข้าสู่ระบบ(อีx)=x. มันเป็นความจริงทางคณิตศาสตร์ นี่คืออคติของตัวแปรที่ละเว้น

บอกว่าได้รับมอบหมายแบบสุ่ม อาจเป็นวันของสัปดาห์ที่ผู้คนเกิดมา อาจเป็นการทดลองจริง มันเป็นอะไรที่ไม่เกี่ยวข้องกับYผมYที่คาดการณ์Xจากนั้นคุณสามารถใช้การสุ่มของฉันที่จะทำนายXและจากนั้นใช้ที่คาดการณ์Xเพื่อให้พอดีกับรูปแบบไปยังY XผมXXY

นั่นคือสแควร์สสองขั้นน้อยที่สุดซึ่งเกือบจะเหมือนกับ IV


อย่างที่ฉันเข้าใจไม่ใช่ 2SLS ทางเดียวที่จะทำ IV ขออภัยถ้าฉันเข้าใจผิด
user25901

ข้อผิดพลาดมาตรฐาน 2SLS ไม่ถูกต้อง ฉันลืมสาเหตุหรือวิธีการ แต่คุณอาจพบบางสิ่งบางอย่างถ้าคุณ google "IV 2SLS ข้อผิดพลาดมาตรฐาน" แพคเกจซอฟต์แวร์ส่วนใหญ่ใช้วิธี 2sls โดยใช้วิธีแก้ (t (z)% *% (x)% *% t (z)% *% y วิธี
generic_user

1
2SLS ข้อผิดพลาดมาตรฐานผิดเพราะการป้อนข้อมูลในขั้นตอนสุดท้าย (พูดX ) ไม่ได้สะท้อนให้เห็นถึงความแปรปรวนที่เกิดขึ้นจริงของX แก้ไข SEs สำหรับสิ่งนี้ X^X
MichaelChirico

ขอบคุณ ฉันยังใหม่กับการใช้เศรษฐมิติเมื่อฉันเขียนสิ่งนี้
generic_user

-1

ในการถดถอยเราต้องการบันทึกผลกระทบเชิงปริมาณของตัวแปรอิสระ (ซึ่งเราถือว่าอยู่ภายนอกและไม่ได้ขึ้นอยู่กับสิ่งอื่น) ในตัวแปรตามที่ระบุ เราต้องการทราบว่าผลกระทบสุทธิใดที่ตัวแปรภายนอกมีต่อตัวแปรตาม - ความหมายว่าตัวแปรอิสระควรปราศจากอิทธิพลใด ๆ จากตัวแปรอื่น วิธีที่รวดเร็วในการดูว่าการถดถอยนั้นประสบปัญหาของ endogeneity หรือไม่คือการตรวจสอบความสัมพันธ์ระหว่างตัวแปรอิสระกับส่วนที่เหลือ แต่นี่เป็นเพียงการตรวจสอบอย่างละเอียดมิฉะนั้นจะต้องทำการทดสอบความเป็นเนื้อเดียวกันอย่างเป็นทางการ


3
สิ่งนี้ไม่เป็นความจริง ความสัมพันธ์ระหว่างค่าคงที่และตัวแปรอธิบายจากการถดถอยเป็นศูนย์โดยการก่อสร้าง นี่ไม่ใช่การทดสอบสำหรับ endogeneity
Andy

E[εX]=0εY=0+1x+εεE[อี^ผม|x]=0อี^ผมE[อี^ผม|x]=0^0+^1x
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.