มีคำถามที่คล้ายกันไม่กี่วันที่ผ่านมาซึ่งมีการอ้างอิงที่เกี่ยวข้อง:
- Belloni, A. , Chernozhukov, V. , และ Hansen, C. (2014) "การอนุมานเกี่ยวกับผลการรักษาหลังจากเลือกระหว่างการควบคุมแบบมิติสูง", การทบทวนเศรษฐกิจศึกษา, 81 (2), pp. 608-50 ( ลิงก์ )
อย่างน้อยสำหรับฉันกระดาษก็ค่อนข้างอ่านยากเพราะหลักฐานที่อยู่เบื้องหลังเรื่องนี้ค่อนข้างเรียบง่ายมีความประณีตพอสมควร เมื่อคุณมีความสนใจในการประเมินแบบจำลองเช่น
Yผม= α Tผม+ X'ผมβ+ ϵผม
ที่ที่เป็นผลของคุณT ฉันคือบางส่วนผลการรักษาที่น่าสนใจและX ฉันเป็นเวกเตอร์ของการควบคุมที่มีศักยภาพ พารามิเตอร์เป้าหมายคือα สมมติว่าการเปลี่ยนแปลงส่วนใหญ่ในผลลัพธ์ของคุณได้รับการอธิบายโดยการรักษาและชุดควบคุมที่กระจัดกระจาย Belloni et al (2014) พัฒนาวิธีการเลือกแบบ double-strong ซึ่งให้การประเมินจุดที่ถูกต้องและช่วงความเชื่อมั่นที่ถูกต้อง การสันนิษฐานกระจัดกระจายนี้มีความสำคัญYผมTผมXผมα
หากมีตัวทำนายที่สำคัญสองสามข้อของy iแต่คุณไม่ทราบว่าเป็นตัวใด (ตัวแปรเดียว, ชื่อพหุนามคำสั่งที่สูงขึ้นหรือการโต้ตอบกับตัวแปรอื่น ๆ ) คุณสามารถดำเนินการตามขั้นตอนการเลือกสามขั้นตอน:XผมYผม
- ถอยหลังบนX i , กำลังสองของพวกเขา, และการโต้ตอบ, และเลือกตัวทำนายที่สำคัญโดยใช้ LASSOYผมXผม
- ถอยหลังบนX i , กำลังสองของพวกเขา, และการโต้ตอบ, และเลือกตัวทำนายที่สำคัญโดยใช้ LASSOTผมXผม
- ถอยหลังบนT iและตัวแปรทั้งหมดที่ถูกเลือกในสองขั้นตอนแรกYผมTผม
พวกเขาให้หลักฐานว่าทำไมงานนี้และทำไมคุณได้รับช่วงความเชื่อมั่นที่ถูกต้อง ฯลฯ จากวิธีนี้ พวกเขายังแสดงให้เห็นว่าหากคุณทำการเลือก LASSO ในการถดถอยข้างต้นแล้วทำการถดถอยผลลัพธ์ในการรักษาและตัวแปรที่เลือกคุณจะได้รับการประเมินจุดผิดและช่วงความเชื่อมั่นที่ผิดพลาดเช่นBjörnกล่าวแล้ว
จุดประสงค์ในการทำเช่นนี้คือสองเท่า: เปรียบเทียบโมเดลเริ่มต้นของคุณซึ่งการเลือกตัวแปรถูกชี้นำโดยสัญชาตญาณหรือทฤษฎีกับโมเดลการเลือกที่มีประสิทธิภาพสองเท่าจะช่วยให้คุณมีความคิดว่าโมเดลแรกของคุณดีแค่ไหน บางทีแบบจำลองแรกของคุณอาจลืมคำศัพท์หรือปฏิสัมพันธ์ที่สำคัญบางประการซึ่งทำให้เกิดรูปแบบการใช้งานที่ไม่ได้รับการกำหนดหรือตัวแปรที่ละเว้น ประการที่สอง Belloni และคณะ (2014) วิธีการสามารถปรับปรุงการอนุมานพารามิเตอร์เป้าหมายของคุณเพราะ regressors ซ้ำซ้อนถูกลงโทษในขั้นตอนของพวกเขา