เหตุใดนักวิจัยในสาขาเศรษฐศาสตร์จึงใช้การถดถอยเชิงเส้นสำหรับตัวแปรตอบสนองแบบไบนารี


13

เมื่อเร็ว ๆ นี้ฉันต้องอ่านบทความทางเศรษฐศาสตร์หลายฉบับ (สาขาที่ฉันไม่คุ้นเคย) สิ่งหนึ่งที่ฉันสังเกตเห็นคือแม้ว่าตัวแปรตอบสนองจะเป็นแบบไบนารี่ แต่โมเดลการถดถอยเชิงเส้นที่ใช้ OLS นั้นเป็นที่แพร่หลาย คำถามของฉันคือ:

เหตุใดการถดถอยเชิงเส้นจึงได้รับการสนับสนุนเช่นการถดถอยโลจิสติกส์ในสาขาเศรษฐศาสตร์ นี่เป็นวิธีปฏิบัติทั่วไปหรือเป็นขั้นตอนที่ได้รับการสนับสนุนอย่างแข็งขัน (ในเอกสารโดยอาจารย์และอื่น ๆ )?

โปรดทราบว่าฉันไม่ได้ถามว่าทำไมการใช้การถดถอยเชิงเส้นกับการตอบกลับแบบไบนารีอาจเป็นความคิดที่ไม่ดีหรือวิธีการทางเลือกอื่นคืออะไร ในทางตรงกันข้ามฉันถามว่าทำไมผู้คนใช้การถดถอยเชิงเส้นในการตั้งค่านี้เพราะฉันรู้คำตอบของคำถามทั้งสองนี้


5
คุณยกตัวอย่างอะไรได้บ้าง
Stephan Kolassa

7
สิ่งนี้ไม่ถูกต้อง เศรษฐศาสตร์และเศรษฐมิติยังมีวรรณกรรมมากมายเกี่ยวกับ logit และ probit และโมเดลที่เกี่ยวข้อง ฉันเป็นคนนอกเช่นกันและฉันไม่สามารถหาปริมาณการใช้แบบสัมพัทธ์ได้อย่างง่ายดาย แต่วรรณกรรมมีขนาดใหญ่พอที่จะลบล้าง "แพร่หลาย" (ความหมายทุกที่!) มีคำถามอยู่ที่นี่เกี่ยวกับสาเหตุที่ใช้แบบจำลองความน่าจะเป็นแบบเชิงเส้นเลยและฉันไม่คิดว่าคำอธิบายจะต้องลึกหรือยากที่จะหา: มันง่ายที่จะเข้าใจและบางครั้งมันก็ทำงานได้อย่างเพียงพอ
Nick Cox

3
เศรษฐศาสตร์มีความสัมพันธ์แบบสบาย ๆ กับคณิตศาสตร์ ฉันจะไม่กังวลมากเกินไปเกี่ยวกับเรื่องนี้
Sycorax พูดว่า Reinstate Monica

1
@Sycorax ฉันมีความรู้สึกคล้ายกัน และถ้าหากใครมีความเลอะเทอะกับคณิตศาสตร์เขา / เธอก็ยังสามารถสร้างบางสิ่งบางอย่างที่ "ได้ผล"
Haitao Du

1
@Sycorax นั่นไม่จริงหรือไม่ยุติธรรม แน่นอนโดยระบุว่า "คุณไม่ต้องกังวลมากเกินไป" ไม่รับผิดชอบต่อคำถาม เศรษฐศาสตร์มีความสัมพันธ์ที่ดีกับคณิตศาสตร์และสถิติทั้งนี้ขึ้นอยู่กับสาขาย่อย มันเป็นเพียงนักเศรษฐศาสตร์ที่มักจะเกี่ยวข้องกับการอนุมานสาเหตุในขณะที่ยังต้องจัดการกับข้อมูลเชิงสังเกตการณ์ (เช่นวิทยาศาสตร์สังคมทำ) สิ่งนี้ทำให้ยากมากในการสร้างความแม่นยำทางคณิตศาสตร์ที่แข็งแกร่งโดยไม่ต้องคำนึงถึงสัญชาตญาณทางเศรษฐกิจ
StAtS

คำตอบ:


18

บล็อกนี้โพสต์โดยบล็อกเศรษฐมิติของเดฟไจล์สสรุปข้อเสียของ Linear Probability Model (LPM) เป็นส่วนใหญ่

อย่างไรก็ตามเขามีเหตุผลสั้น ๆว่าทำไมนักวิจัยจึงเลือกใช้:

  • มันง่ายกว่าการคำนวณ
  • ง่ายต่อการตีความ "ผลกระทบเล็กน้อย"
  • มันหลีกเลี่ยงความเสี่ยงของการระบุคุณสมบัติของ "ฟังก์ชั่นลิงค์" ที่ผิดพลาด
  • มีภาวะแทรกซ้อนกับ Logit หรือ Probit หากคุณมีหุ่นจำลองด้านล่าง
  • ผลกระทบโดยประมาณจากโมเดล LPM, Logit และ Probit มักคล้ายกันมากโดยเฉพาะถ้าคุณมีขนาดตัวอย่างใหญ่

ฉันไม่ทราบว่า LPM นั้นเป็นสิ่งที่ใช้กันโดยทั่วไปเมื่อเทียบกับ logit หรือ probit แต่ด้วยเหตุผลบางประการที่กล่าวมานี้มีเหตุผลสำหรับฉัน


2
+1 ขอบคุณสำหรับคำว่า Linear Probability Model ฉันไม่เคยรู้จักมาก่อน
Haitao Du

1
มีส่วนที่ดีเกี่ยวกับเรื่องนี้ใน "เศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่" โดย Angrist และ Pischke หากคุณสนใจมากขึ้น
shf8888

2

ฉันมีคำถามที่คล้ายกันเมื่ออ่านเอกสารจากการยื่นอื่น ๆ และถามคำถามมากมายที่เกี่ยวข้องกับสิ่งนี้เช่นคำถามนี้ในชุมชนการทำเหมืองข้อมูลด้านการศึกษา: เหตุใดจึงใช้การสูญเสียความน่าจะเป็นกำลังสองแทนการสูญเสียโลจิสติก

ที่นี่ฉันจะนำเสนอความคิดเห็นส่วนตัวจำนวนมาก


ฉันรู้สึกว่าฟังก์ชั่นการสูญเสียไม่สำคัญมากนักในกรณีใช้งานจริงหลายอย่าง นักวิจัยบางคนอาจรู้เพิ่มเติมเกี่ยวกับการสูญเสียกำลังสองและการสร้างระบบของมันมันยังทำงานได้และแก้ปัญหาโลกแห่งความจริง นักวิจัยอาจไม่เคยรู้จักการสูญเสียโลจิสติกหรือการสูญเสียบานพับและต้องการลอง นอกจากนี้พวกเขาอาจไม่สนใจที่จะหาแบบจำลองคณิตศาสตร์ที่ดีที่สุด แต่ต้องการแก้ปัญหาจริงที่ไม่มีใครพยายามแก้ไขก่อน

นี่เป็นอีกตัวอย่าง: ถ้าคุณตรวจสอบคำตอบสำหรับคำถามของฉันพวกเขาทั้งหมดคล้ายกัน อะไรคือผลกระทบของการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันในการจัดประเภทเป็นประมาณ 0-1 การสูญเสีย


ความคิดเพิ่มเติม: การวิจัยการเรียนรู้ด้วยเครื่องอาจใช้เวลามากในการเลือกรุ่นและวิธีการปรับโมเดลให้เหมาะสม เนื่องจากนักวิจัยการเรียนรู้ของเครื่องอาจไม่มีความสามารถในการรวบรวมข้อมูลเพิ่มเติม / รับมาตรการเพิ่มเติม และงานของนักวิจัยการเรียนรู้ของเครื่องกำลังได้รับคณิตศาสตร์ที่ดีกว่าไม่แก้ปัญหาในโลกแห่งความเป็นจริงโดยเฉพาะ

ในทางกลับกันในโลกแห่งความเป็นจริงถ้าข้อมูลดีกว่ามันจะเต้นทุกสิ่ง ดังนั้นการเลือกโครงข่ายประสาทเทียมหรือฟอเรสต์แบบสุ่มอาจไม่สำคัญมากนัก ทุกรุ่นมีความคล้ายคลึงกับบุคคลที่ต้องการใช้การเรียนรู้ของเครื่องเป็นเครื่องมือในการแก้ปัญหาในโลกแห่งความจริง บุคคลที่ไม่สนใจในการพัฒนาคณิตศาสตร์หรือเครื่องมืออาจใช้เวลามากขึ้นในการใช้ความรู้เกี่ยวกับโดเมนเฉพาะเพื่อทำให้ระบบดีขึ้น

ตามที่ฉันพูดถึงในความคิดเห็น และถ้าหากใครมีความเลอะเทอะกับคณิตศาสตร์เขา / เธอก็ยังสามารถสร้างสิ่งที่ใช้ได้


1
(+1) นั่นคือ "เครื่องหมายคำพูด" hxd มากมายพวกเขาหมายถึงอะไรในการสื่อสาร "งาน" หมายถึง "พวกเขาคิดว่าใช้งานได้ แต่ไม่ได้" หรือหมายถึง "งานเรียงลำดับ" หรือไม่
Matthew Drury

@ MatthewDrury ขอบคุณสำหรับความคิดเห็น ฉันคิดว่าฉันมีความรู้สึกส่วนตัวมากมายและไม่รู้วิธีเขียนลงไป ฉันคิดว่าหลายคนไม่เป็นทางการหรือเป็นส่วนตัวเกินไป นั่นคือเหตุผลที่ฉันมีคำพูดมากมาย
Haitao Du

ฉันคิดว่ามันชัดเจนกว่าที่จะแท็กพวกเขาเป็นความคิดเห็นส่วนตัว นี่คือสิ่งที่ฉันทำในชั้นเรียนกับนักเรียน: "นี่คือความคิดเห็นส่วนตัว แต่ SVMs ดูด" (ไม่ใช่ตัวอย่างจริงหรือเป็น ... )
Matthew Drury

@ MatthewDrury ขอบคุณสำหรับการให้คำแนะนำฉันในการเขียนไม่มีคำพูดในคำตอบ!
Haitao Du
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.