ฉันมีชุดข้อมูลที่มี 8000 คลัสเตอร์และการสังเกต 4 ล้านครั้ง น่าเสียดายที่ซอฟต์แวร์สถิติของฉัน Stata ทำงานค่อนข้างช้าเมื่อใช้ฟังก์ชันข้อมูลพาเนลสำหรับการถดถอยโลจิสติก: xtlogit
แม้มีตัวอย่าง 10%
อย่างไรก็ตามเมื่อใช้logit
ผลลัพธ์ฟังก์ชั่นที่ไม่ใช่แผงเซลล์ปรากฏเร็วกว่ามาก ดังนั้นฉันจึงอาจได้รับประโยชน์จากการใช้logit
ข้อมูลที่ถูกแก้ไขซึ่งมีผลกระทบคงที่
ฉันเชื่อว่ากระบวนการนี้มีชื่อว่า "Mundlak fixed effects procedure" (Mundlak, Y. 1978. การรวมกลุ่มของ Time-Series และข้อมูลข้ามส่วน Econometrica, 46 (1), 69-85)
ฉันพบคำอธิบายที่เข้าใจง่ายของขั้นตอนนี้ในบทความโดยAntonakis, J. , Bendahan, S. , Jacquart, P. , & Lalive, R. (2010) ในการอ้างเหตุผล: การตรวจสอบและคำแนะนำ ความเป็นผู้นำรายไตรมาส, 21 (6) 1086-1120 ฉันพูด:
วิธีหนึ่งในการแก้ไขปัญหาของเอฟเฟกต์ที่ถูกตัดออกและยังรวมถึงตัวแปรระดับ 2 คือการรวมวิธีการคลัสเตอร์ของทุกระดับ 1 covariates ในโมเดลโดยประมาณ (Mundlak, 1978) วิธีการคลัสเตอร์สามารถรวมเป็น regressors หรือลบออก (เช่นการจัดกึ่งกลางของค่าเฉลี่ยกลุ่ม) จากระดับ 1 covariate ค่าเฉลี่ยของคลัสเตอร์นั้นไม่เปลี่ยนแปลงภายในกลุ่ม (และแปรผันระหว่างกลุ่ม) และอนุญาตให้มีการประมาณค่าพารามิเตอร์ระดับ 1 อย่างต่อเนื่องราวกับว่ามีการรวมเอฟเฟกต์ fi xed (ดู Rabe-Hesketh & Skrondal, 2008)
ดังนั้นการจัดกึ่งกลางค่าเฉลี่ยของคลัสเตอร์จึงเหมาะและเป็นประโยชน์สำหรับการแก้ปัญหาการคำนวณของฉัน อย่างไรก็ตามเอกสารเหล่านี้ดูเหมือนจะมุ่งสู่การถดถอยเชิงเส้น (OLS)
วิธีการของการจัดกึ่งกลางของค่าเฉลี่ยคลัสเตอร์นี้ยังใช้กับ "การจำลองแบบ" ผลกระทบคงที่ของการถดถอยโลจิสติกแบบไบนารีหรือไม่?
คำถามทางเทคนิคเพิ่มเติมที่ควรให้ผลลัพธ์ในคำตอบเดียวกันคือ: อยู่xtlogit depvar indepvars, fe
กับชุดข้อมูล A เท่ากับlogit depvar indepvars
ชุดข้อมูล B เมื่อชุดข้อมูล B เป็นชุดข้อมูลรุ่นกลางที่มีค่าเฉลี่ยคลัสเตอร์หรือไม่
ความยากที่เพิ่มขึ้นที่ฉันพบในการจัดกึ่งกลางค่าเฉลี่ยกลุ่มนี้คือวิธีรับมือกับหุ่น เนื่องจากหุ่นมีค่าเป็น 0 หรือ 1 พวกมันเหมือนกันในการสุ่มและการถดถอยแบบคงที่หรือไม่? พวกเขาไม่ควรจะอยู่กึ่งกลาง?