ควรใช้เอฟเฟกต์คงที่เมื่อใดกับการใช้คลัสเตอร์ SE


19

สมมติว่าคุณมีข้อมูลข้ามส่วนเดียวที่บุคคลตั้งอยู่ภายในกลุ่ม (เช่นนักเรียนในโรงเรียน) และคุณต้องการประเมินแบบจำลองของแบบฟอร์มY_i = a + B*X_iที่Xเป็นเวกเตอร์ของลักษณะระดับบุคคลและaค่าคงที่

ในกรณีนี้สมมติว่าไม่มีความแตกต่างระหว่างกลุ่มที่แตกต่างกันทำให้ลำเอียงประเมินจุดของคุณBและ SEs ของพวกเขาเนื่องจากมีความสัมพันธ์กับตัวแปรอิสระที่คุณสนใจ

ทางเลือกหนึ่งคือการจัดกลุ่ม SE ของคุณตามกลุ่ม (โรงเรียน) อีกประการหนึ่งคือการรวมกลุ่ม FE อีกอย่างคือให้ใช้ทั้ง สิ่งที่ควรพิจารณาเมื่อเลือกระหว่างตัวเลือกเหล่านี้ ไม่ชัดเจนว่าทำไมกลุ่มหนึ่งอาจรวมกลุ่ม SE ตามกลุ่มและใช้กลุ่ม FE ในกรณีเฉพาะของฉันฉันมี 35 กลุ่มและ 5,000 คนซ้อนกันภายในแต่ละกลุ่ม ฉันได้ติดตามการสนทนาในไฟล์ PDF นี้แต่ไม่ชัดเจนว่าทำไมและเมื่อใดจึงอาจใช้ทั้ง SEs แบบคลัสเตอร์และเอฟเฟกต์คงที่

(โปรดอภิปรายข้อดีและข้อเสียของ SEs เทียบกับ FE แทนการแนะนำฉันพอดีกับโมเดลหลายระดับ)

คำตอบ:


22

ทั้งสองวิธีการใช้เอฟเฟกต์คงที่ของกลุ่มและ / หรือข้อผิดพลาดมาตรฐานที่ปรับด้วยคลัสเตอร์คำนึงถึงปัญหาต่าง ๆ ที่เกี่ยวข้องกับข้อมูลคลัสเตอร์ (หรือแผงควบคุม) และฉันจะมองอย่างชัดเจนว่าเป็นแนวทางที่แตกต่างกัน บ่อยครั้งที่คุณต้องการใช้ทั้งคู่:

ก่อนอื่นบัญชีข้อผิดพลาดมาตรฐานที่ปรับด้วยคลัสเตอร์สำหรับความสัมพันธ์ภายในคลัสเตอร์หรือ heteroscedasticity ซึ่งตัวประมาณผลกระทบคงที่ไม่คำนึงถึงจนกว่าคุณจะยินดีที่จะตั้งสมมติฐานเพิ่มเติมดูสไลด์บรรยาย Imbens และ Wooldridge สำหรับการอภิปรายสั้น ๆ และแผงยาวและปัญหาต่าง ๆ ที่เกี่ยวข้องกับปัญหานี้ นอกจากนี้ยังมีบทความใหม่เกี่ยวกับหัวข้อนี้โดยคาเมรอนและมิลเลอร์: คู่มือปฏิบัติสำหรับการอนุมานแบบ Cluster-Robustซึ่งอาจน่าสนใจสำหรับคุณ หากคุณไม่ต้องการจำลองเมทริกซ์ความแปรปรวนร่วมและคุณสงสัยว่ามีความสัมพันธ์ภายในคลัสเตอร์ฉันแนะนำให้ใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพของคลัสเตอร์เนื่องจากอคติใน SE ของคุณอาจรุนแรง (มีปัญหามากกว่าสำหรับ heteroscedasticity ให้ดูAngrist & Pischke บทที่ III.8สำหรับการอภิปรายในหัวข้อนี้ แต่คุณต้องการคลัสเตอร์ที่เพียงพอ (Angrist และ Pischke บอกว่า 40-50 เป็นบทบาทของหัวแม่มือ) ข้อผิดพลาดมาตรฐานที่ปรับโดยคลัสเตอร์จะคำนึงถึงข้อผิดพลาดมาตรฐานของบัญชี แต่ปล่อยให้การประมาณคะแนนของคุณไม่เปลี่ยนแปลง (ข้อผิดพลาดมาตรฐานมักจะขึ้นไป)!

การประมาณผลกระทบคงที่คำนึงถึงความต่างของเวลาที่ไม่แปรเปลี่ยน (โดยที่คุณพูดถึง) สิ่งนี้อาจดีหรือไม่ดี: ในมือคุณจำเป็นต้องมีสมมติฐานน้อยกว่าเพื่อให้ได้การประมาณที่สอดคล้องกัน ในอีกทางหนึ่งคุณทิ้งความแปรปรวนมากมายซึ่งอาจเป็นประโยชน์ บางคนเช่น Andrew Gelman ชอบการสร้างแบบจำลองแบบลำดับชั้นเป็นเอฟเฟกต์คงที่ แต่ที่นี่ความคิดเห็นต่างกัน การประมาณผลกระทบคงที่จะเปลี่ยนทั้งการประมาณจุดและช่วงเวลา (เช่นที่นี่ข้อผิดพลาดมาตรฐานมักจะสูงกว่า)

ดังนั้นโดยสรุป: ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพของคลัสเตอร์เป็นวิธีที่ง่ายในการพิจารณาปัญหาที่เป็นไปได้ที่เกี่ยวข้องกับข้อมูลคลัสเตอร์หากคุณไม่ต้องการรบกวนการสร้างแบบจำลองความสัมพันธ์ระหว่างและภายในคลัสเตอร์ (และมีคลัสเตอร์เพียงพอ) การประมาณผลกระทบคงที่จะใช้เฉพาะรูปแบบบางรูปแบบดังนั้นจึงขึ้นอยู่กับแบบจำลองของคุณว่าคุณต้องการประมาณการโดยใช้รูปแบบที่เปลี่ยนแปลงน้อยลงหรือไม่ แต่หากไม่มีข้อสมมติฐานเพิ่มเติมการประมาณผลกระทบคงที่จะไม่จัดการปัญหาที่เกี่ยวข้องกับความสัมพันธ์ภายในกลุ่มสำหรับเมทริกซ์ความแปรปรวน ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพของคลัสเตอร์จะไม่นำมาพิจารณาปัญหาที่เกี่ยวข้องกับการใช้การประมาณผลกระทบคงที่


2
การตอบสนองที่ดี คำถามที่สำคัญที่เหลืออยู่ก็คือสาเหตุที่ใครต้องการทั้ง Imbens และ Wooldridge ครอบคลุมสิ่งนี้ในระดับหนึ่ง
QuestionAnswer

13

ผลกระทบคงที่สำหรับการลบความแตกต่างที่ไม่ได้สังเกตระหว่างกลุ่มที่แตกต่างกันในข้อมูลของคุณ

ฉันไม่เห็นด้วยกับความหมายในการตอบรับที่ยอมรับว่าการตัดสินใจใช้แบบจำลอง FE ขึ้นอยู่กับว่าคุณต้องการใช้ "รูปแบบที่เปลี่ยนแปลงน้อยลงหรือไม่" หากตัวแปรตามของคุณได้รับผลกระทบจากตัวแปรที่ไม่สามารถสังเกตได้ที่แตกต่างกันอย่างเป็นระบบในกลุ่มในพาเนลของคุณค่าสัมประสิทธิ์ของตัวแปรใด ๆ ที่มีความสัมพันธ์กับการเปลี่ยนแปลงนี้จะมีอคติ ยกเว้นว่าตัวแปร X ของคุณได้รับการสุ่ม (และพวกเขาจะไม่ได้อยู่กับข้อมูลการสังเกต) มันมักจะค่อนข้างง่ายที่จะทำให้อาร์กิวเมนต์สำหรับตัวแปรที่ถูกละเว้น คุณอาจสามารถควบคุมตัวแปรที่ตัดออกบางส่วนด้วยรายการตัวแปรควบคุมที่ดี แต่ถ้าการระบุตัวตนที่แข็งแกร่งคือเป้าหมายหมายเลข 1 ของคุณแม้กระทั่งรายการตัวควบคุมที่กว้างขวางก็สามารถออกจากพื้นที่สำหรับผู้อ่านที่สำคัญเพื่อสงสัยผลลัพธ์ของคุณ ในกรณีเหล่านี้มักเป็นความคิดที่ดีที่จะใช้แบบจำลองเอฟเฟกต์คงที่

ข้อผิดพลาดมาตรฐานแบบคลัสเตอร์สำหรับการบัญชีสำหรับสถานการณ์ที่การสังเกตภายในแต่ละกลุ่มไม่ได้เป็น iid (เป็นอิสระและกระจายตัวเหมือนกัน)

ตัวอย่างคลาสสิกคือถ้าคุณมีข้อสังเกตมากมายสำหรับคณะ บริษัท ข้ามเวลา คุณสามารถอธิบายถึงเอฟเฟกต์คงที่ในระดับ บริษัท แต่อาจมีตัวแปรที่ไม่สามารถอธิบายได้ในตัวแปรตามที่สัมพันธ์กันตลอดเวลา โดยทั่วไปเมื่อทำงานกับข้อมูลอนุกรมเวลามักจะปลอดภัยที่จะถือว่ามีความสัมพันธ์แบบอนุกรมชั่วคราวในข้อผิดพลาดภายในกลุ่มของคุณ สถานการณ์เหล่านี้เป็นกรณีการใช้งานที่ชัดเจนที่สุดสำหรับ SEs ที่ทำคลัสเตอร์

ตัวอย่างตัวอย่าง:

หากคุณมีข้อมูลการทดลองที่คุณกำหนดการรักษาแบบสุ่ม แต่ทำการสังเกตซ้ำ ๆ สำหรับแต่ละบุคคล / กลุ่มเมื่อเวลาผ่านไปคุณจะได้รับการพิสูจน์ในการละเว้นผลคงที่ แต่จะต้องการจัดกลุ่ม SE ของคุณ

หรือหากคุณมีการสังเกตหลายครั้งต่อกลุ่มสำหรับข้อมูลที่ไม่ได้ทดลอง แต่การสังเกตภายในกลุ่มแต่ละครั้งนั้นอาจถือได้ว่าเป็นการดึงไอดอลจากกลุ่มที่ใหญ่กว่าของพวกเขา (เช่นคุณมีการสังเกตจากโรงเรียนหลายแห่ง แต่แต่ละกลุ่ม ของนักเรียนจากโรงเรียนของพวกเขา) คุณต้องการรวมเอฟเฟกต์คงที่ แต่ไม่ต้องการ SEs แบบกลุ่ม


2

คำตอบเหล่านี้ใช้ได้ แต่ Abadie et al ให้คำตอบล่าสุดและดีที่สุด (2019) "เมื่อใดที่คุณควรปรับข้อผิดพลาดมาตรฐานสำหรับการทำคลัสเตอร์?" ด้วยผลกระทบคงที่เหตุผลหลักในการจัดกลุ่มคือคุณมีความแตกต่างในผลการรักษาทั่วทั้งกลุ่ม มีเหตุผลอื่น ๆ เช่นถ้ากลุ่ม (เช่น บริษัท ประเทศ) เป็นส่วนย่อยของกลุ่มในประชากร (ที่คุณกำลังอนุมาน) การจัดกลุ่มเป็นปัญหาการออกแบบเป็นข้อความหลักของกระดาษ อย่าทำอย่างสุ่มสี่สุ่มห้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.