Mundlak ใช้เอฟเฟกต์คงที่สำหรับการถดถอยโลจิสติกกับหุ่นหรือไม่


12

ฉันมีชุดข้อมูลที่มี 8000 คลัสเตอร์และการสังเกต 4 ล้านครั้ง น่าเสียดายที่ซอฟต์แวร์สถิติของฉัน Stata ทำงานค่อนข้างช้าเมื่อใช้ฟังก์ชันข้อมูลพาเนลสำหรับการถดถอยโลจิสติก: xtlogitแม้มีตัวอย่าง 10%

อย่างไรก็ตามเมื่อใช้logitผลลัพธ์ฟังก์ชั่นที่ไม่ใช่แผงเซลล์ปรากฏเร็วกว่ามาก ดังนั้นฉันจึงอาจได้รับประโยชน์จากการใช้logitข้อมูลที่ถูกแก้ไขซึ่งมีผลกระทบคงที่

ฉันเชื่อว่ากระบวนการนี้มีชื่อว่า "Mundlak fixed effects procedure" (Mundlak, Y. 1978. การรวมกลุ่มของ Time-Series และข้อมูลข้ามส่วน Econometrica, 46 (1), 69-85)

ฉันพบคำอธิบายที่เข้าใจง่ายของขั้นตอนนี้ในบทความโดยAntonakis, J. , Bendahan, S. , Jacquart, P. , & Lalive, R. (2010) ในการอ้างเหตุผล: การตรวจสอบและคำแนะนำ ความเป็นผู้นำรายไตรมาส, 21 (6) 1086-1120 ฉันพูด:

วิธีหนึ่งในการแก้ไขปัญหาของเอฟเฟกต์ที่ถูกตัดออกและยังรวมถึงตัวแปรระดับ 2 คือการรวมวิธีการคลัสเตอร์ของทุกระดับ 1 covariates ในโมเดลโดยประมาณ (Mundlak, 1978) วิธีการคลัสเตอร์สามารถรวมเป็น regressors หรือลบออก (เช่นการจัดกึ่งกลางของค่าเฉลี่ยกลุ่ม) จากระดับ 1 covariate ค่าเฉลี่ยของคลัสเตอร์นั้นไม่เปลี่ยนแปลงภายในกลุ่ม (และแปรผันระหว่างกลุ่ม) และอนุญาตให้มีการประมาณค่าพารามิเตอร์ระดับ 1 อย่างต่อเนื่องราวกับว่ามีการรวมเอฟเฟกต์ fi xed (ดู Rabe-Hesketh & Skrondal, 2008)

ดังนั้นการจัดกึ่งกลางค่าเฉลี่ยของคลัสเตอร์จึงเหมาะและเป็นประโยชน์สำหรับการแก้ปัญหาการคำนวณของฉัน อย่างไรก็ตามเอกสารเหล่านี้ดูเหมือนจะมุ่งสู่การถดถอยเชิงเส้น (OLS)

วิธีการของการจัดกึ่งกลางของค่าเฉลี่ยคลัสเตอร์นี้ยังใช้กับ "การจำลองแบบ" ผลกระทบคงที่ของการถดถอยโลจิสติกแบบไบนารีหรือไม่?

คำถามทางเทคนิคเพิ่มเติมที่ควรให้ผลลัพธ์ในคำตอบเดียวกันคือ: อยู่xtlogit depvar indepvars, feกับชุดข้อมูล A เท่ากับlogit depvar indepvarsชุดข้อมูล B เมื่อชุดข้อมูล B เป็นชุดข้อมูลรุ่นกลางที่มีค่าเฉลี่ยคลัสเตอร์หรือไม่

ความยากที่เพิ่มขึ้นที่ฉันพบในการจัดกึ่งกลางค่าเฉลี่ยกลุ่มนี้คือวิธีรับมือกับหุ่น เนื่องจากหุ่นมีค่าเป็น 0 หรือ 1 พวกมันเหมือนกันในการสุ่มและการถดถอยแบบคงที่หรือไม่? พวกเขาไม่ควรจะอยู่กึ่งกลาง?

คำตอบ:


9

ความแตกต่างครั้งแรกหรือภายในการแปลงเช่นการลดระดับไม่มีในโมเดลเช่น logit เนื่องจากในกรณีของโมเดลที่ไม่ใช่เชิงเส้นกลเม็ดดังกล่าวจะไม่ลบเอฟเฟกต์คงที่ที่ไม่ได้สังเกต แม้ว่าคุณจะมีชุดข้อมูลขนาดเล็กซึ่งเป็นไปได้ที่จะรวมหุ่นแต่ละตัวของ N-1 เพื่อประเมินผลกระทบคงที่โดยตรงสิ่งนี้จะนำไปสู่การประมาณการแบบเอนเอียงยกเว้นมิติเวลาของข้อมูลของคุณมีขนาดใหญ่ การกำจัดเอฟเฟกต์คงที่ในการบันทึกพาเนลจึงไม่ทำตามความแตกต่างและการลดทอนและเป็นไปได้เนื่องจากรูปแบบการทำงานของ logit เท่านั้น หากคุณมีความสนใจในรายละเอียดคุณสามารถดูบันทึกย่อเหล่านี้โดยSöderbomในหน้า PDF 30 (คำอธิบายว่าทำไมการลดความแตกต่าง / ความแตกต่างครั้งแรกใน logit / probit ไม่ได้ช่วย) และหน้า 42 (แนะนำตัวประมาณ log log

ปัญหาอีกประการหนึ่งคือxtlogitและโมเดล logit ของพาเนลโดยทั่วไปไม่ได้ประเมินผลกระทบคงที่โดยตรงซึ่งจำเป็นต้องใช้ในการคำนวณผลกระทบเล็กน้อย หากไม่มีสิ่งเหล่านี้จะเป็นการขัดเคืองที่จะตีความค่าสัมประสิทธิ์ของคุณซึ่งอาจน่าผิดหวังหลังจากใช้งานโมเดลเป็นเวลาหลายชั่วโมง

ด้วยชุดข้อมูลขนาดใหญ่ดังกล่าวและความยากลำบากเชิงแนวคิดที่กล่าวถึงก่อนหน้านี้ของ logit แผงควบคุม FE ฉันจะยึดติดกับตัวแบบความน่าจะเป็นเชิงเส้น ฉันหวังว่าคำตอบนี้จะไม่ทำให้คุณผิดหวัง แต่มีหลายเหตุผลที่ดีสำหรับการให้คำแนะนำเช่น: LPM เร็วกว่ามากสัมประสิทธิ์สามารถตีความได้ทันที (นี่ถือเป็นพิเศษถ้าคุณมีเอฟเฟกต์ปฏิสัมพันธ์ในแบบจำลองของคุณ สัมประสิทธิ์ในการเปลี่ยนแปลงโมเดลที่ไม่ใช่เชิงเส้น!), เอฟเฟกต์คงที่สามารถควบคุมได้ง่ายและคุณสามารถปรับข้อผิดพลาดมาตรฐานสำหรับออโตคอร์เรเลชันและกลุ่มโดยไม่ต้องเพิ่มเวลาประมาณ ฉันหวังว่านี่จะช่วยได้.


1
มันไม่ใช่ทางออก แต่เป็นคำตอบ ขอบคุณ :)
Tom

1
จุดเล็ก ๆ : p20 ของสไลด์เหล่านั้นทำให้กรณีของคุณ แต่มีการอธิบายโมเดลของเอ็ฟเฟ็กต์แบบสุ่มที่มีความสัมพันธ์ Mundlak หรือที่รู้จักกันในหน้า 47 และดูเหมือนว่าจะไม่มีคำเตือนดังกล่าว
conjugateprior

1

ฉันเชื่อว่า logit แบบมีเงื่อนไข ("clogit" บน Stata) มันเป็นตัวประมาณค่า logit panel แบบคงที่

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf


5
ยินดีต้อนรับสู่เว็บไซต์! ฉันคิดว่านี่ไม่ใช่คำตอบที่ยอมรับได้เพราะคำถามคือ: จะหลีกเลี่ยงการถดถอยโลจิสติกตามเงื่อนไข (แก้ไขผลกระทบ) โดยการแก้ไขการถดถอยโลจิสติกข้ามส่วนโดยมีวัตถุประสงค์เพื่อเร่งการประมาณการ ขณะที่การอ้างอิงของคุณบ่งชี้ (ด้านบนของหน้า 3), "เราสามารถใช้อย่างใดอย่างหนึ่งStataของclogitคำสั่งหรือxtlogit, feคำสั่งที่จะทำผลกระทบคงวิเคราะห์ logit. ทั้งสองให้ผลลัพธ์เดียวกัน. (ในความเป็นจริงผมเชื่อว่าxtlogit, feจริงโทรclogit.)" การ OP ทราบแล้วxtlogit, feตามย่อหน้าสุดท้าย
Randel

0

แอลลิสันได้กล่าวถึงปัญหานี้ในแอลลิสัน, (2009), "แบบจำลองการถดถอยผลกระทบคงที่", p.32f

แอลลิสันโต้แย้งว่าเป็นไปไม่ได้ที่จะประเมินแบบจำลองที่ไม่มีเงื่อนไขพร้อมความเป็นไปได้สูงสุด ฉันเป็นเช่นนี้เพราะแบบจำลองมีความเอนเอียงเนื่องจาก "ปัญหาพารามิเตอร์ที่เกิดขึ้น" เขาแนะนำให้ใช้โมเดล logit แบบมีเงื่อนไข (Chamberlain, 1980) สิ่งนี้สามารถทำได้โดยการปรับฟังก์ชั่นความน่าจะเป็นตามจำนวนเหตุการณ์ที่สังเกตได้สำหรับแต่ละคน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.