มันสมเหตุสมผลที่จะทำ OLS หลังจากการเลือกตัวแปร LASSO อย่างไร


20

เมื่อเร็ว ๆ นี้ฉันได้พบว่าในวรรณคดีเศรษฐศาสตร์ประยุกต์ที่ใช้เมื่อจัดการกับปัญหาการเลือกคุณสมบัติมันไม่แปลกที่จะทำ LASSO ตามด้วย OLS ถดถอยโดยใช้ตัวแปรที่เลือก

ฉันสงสัยว่าเราจะมีคุณสมบัติที่ถูกต้องของกระบวนการดังกล่าวได้อย่างไร มันจะทำให้เกิดปัญหาเช่นตัวแปรที่ละเว้นหรือไม่ หลักฐานใด ๆ ที่แสดงว่ามีประสิทธิภาพมากขึ้นหรือผลลัพธ์สามารถตีความได้มากกว่านี้?

นี่คือการสนทนาที่เกี่ยวข้อง:

การเลือกตัวแปรกับ LASSO

การใช้ต้นไม้หลังจากการเลือกตัวแปรโดยใช้ Lasso / Random

ถ้าตามที่ระบุไว้ขั้นตอนดังกล่าวไม่ถูกต้องโดยทั่วไปแล้วทำไมยังมีงานวิจัยมากมายที่ทำเช่นนั้น? ฉันสามารถพูดได้ไหมว่ามันเป็นเพียงแค่กฎของหัวแม่มือวิธีการประนีประนอมเนื่องจากคุณสมบัติที่ไม่สบาย ๆ ของเครื่องประมาณ LASSO และความชื่นชอบของผู้คนที่มีต่อ OLS?


คุณสามารถอธิบายความหมายของการทำ "OLS regression" ได้อย่างไรหลังจากแสดง LASSO ขั้นตอน OLS นี้โดยเฉพาะคืออะไรพยายามประเมินว่า LASSO ไม่ได้ประมาณไว้
whuber

2
มีเอกสารการทำงานเมื่อเร็ว ๆ นี้บางอย่างเกี่ยวกับเรื่องนี้ หลายคนดูเหมือนจะต้องการสมมติฐานว่าชุดของตัวแปรที่ใช้ได้นั้นกระจัดกระจาย หากข้อสันนิษฐานนั้นไม่ได้เก็บไว้จะมีการละเว้นตัวแปรที่มีอคติ และผู้คนชอบ ols เพราะพวกเขาต้องการที่จะตีความ coefs เป็นอิสระจากผลกระทบที่ขอบตัวอย่าง เศรษฐมิตินั้นติดอยู่ในกระบวนทัศน์นั้น
generic_user

4
ในนี้หนังสือเล่มเชือกที่ผ่านมา (ฟรีออนไลน์) ส่วน 11.4 จะปรากฏขึ้นเพื่อแก้ไขปัญหานี้ ฉันไม่ได้อ่านรายละเอียดนี้ แต่การแนะนำจบลงด้วยการพูดว่า "เนื่องจาก [a LASSO ประมาณ]ที่กู้คืนการสนับสนุนของอย่างถูกต้องเราสามารถประมาณเป็นอย่างดี ... เพียงแค่ดำเนินการถดถอยสี่เหลี่ยมจัตุรัสน้อยที่สุดแบบธรรมดาซึ่ง จำกัด อยู่ที่ชุดย่อยนี้ " β^β* * * *β* * * *
GeoMatt22

คำตอบ:


12

มีคำถามที่คล้ายกันไม่กี่วันที่ผ่านมาซึ่งมีการอ้างอิงที่เกี่ยวข้อง:

  • Belloni, A. , Chernozhukov, V. , และ Hansen, C. (2014) "การอนุมานเกี่ยวกับผลการรักษาหลังจากเลือกระหว่างการควบคุมแบบมิติสูง", การทบทวนเศรษฐกิจศึกษา, 81 (2), pp. 608-50 ( ลิงก์ )

อย่างน้อยสำหรับฉันกระดาษก็ค่อนข้างอ่านยากเพราะหลักฐานที่อยู่เบื้องหลังเรื่องนี้ค่อนข้างเรียบง่ายมีความประณีตพอสมควร เมื่อคุณมีความสนใจในการประเมินแบบจำลองเช่น

Yผม=αTผม+Xผม'β+εผม

ที่ที่เป็นผลของคุณT ฉันคือบางส่วนผลการรักษาที่น่าสนใจและX ฉันเป็นเวกเตอร์ของการควบคุมที่มีศักยภาพ พารามิเตอร์เป้าหมายคือα สมมติว่าการเปลี่ยนแปลงส่วนใหญ่ในผลลัพธ์ของคุณได้รับการอธิบายโดยการรักษาและชุดควบคุมที่กระจัดกระจาย Belloni et al (2014) พัฒนาวิธีการเลือกแบบ double-strong ซึ่งให้การประเมินจุดที่ถูกต้องและช่วงความเชื่อมั่นที่ถูกต้อง การสันนิษฐานกระจัดกระจายนี้มีความสำคัญYผมTผมXผมα

หากมีตัวทำนายที่สำคัญสองสามข้อของy iแต่คุณไม่ทราบว่าเป็นตัวใด (ตัวแปรเดียว, ชื่อพหุนามคำสั่งที่สูงขึ้นหรือการโต้ตอบกับตัวแปรอื่น ๆ ) คุณสามารถดำเนินการตามขั้นตอนการเลือกสามขั้นตอน:XผมYผม

  1. ถอยหลังบนX i , กำลังสองของพวกเขา, และการโต้ตอบ, และเลือกตัวทำนายที่สำคัญโดยใช้ LASSOYผมXผม
  2. ถอยหลังบนX i , กำลังสองของพวกเขา, และการโต้ตอบ, และเลือกตัวทำนายที่สำคัญโดยใช้ LASSOTผมXผม
  3. ถอยหลังบนT iและตัวแปรทั้งหมดที่ถูกเลือกในสองขั้นตอนแรกYผมTผม

พวกเขาให้หลักฐานว่าทำไมงานนี้และทำไมคุณได้รับช่วงความเชื่อมั่นที่ถูกต้อง ฯลฯ จากวิธีนี้ พวกเขายังแสดงให้เห็นว่าหากคุณทำการเลือก LASSO ในการถดถอยข้างต้นแล้วทำการถดถอยผลลัพธ์ในการรักษาและตัวแปรที่เลือกคุณจะได้รับการประเมินจุดผิดและช่วงความเชื่อมั่นที่ผิดพลาดเช่นBjörnกล่าวแล้ว

จุดประสงค์ในการทำเช่นนี้คือสองเท่า: เปรียบเทียบโมเดลเริ่มต้นของคุณซึ่งการเลือกตัวแปรถูกชี้นำโดยสัญชาตญาณหรือทฤษฎีกับโมเดลการเลือกที่มีประสิทธิภาพสองเท่าจะช่วยให้คุณมีความคิดว่าโมเดลแรกของคุณดีแค่ไหน บางทีแบบจำลองแรกของคุณอาจลืมคำศัพท์หรือปฏิสัมพันธ์ที่สำคัญบางประการซึ่งทำให้เกิดรูปแบบการใช้งานที่ไม่ได้รับการกำหนดหรือตัวแปรที่ละเว้น ประการที่สอง Belloni และคณะ (2014) วิธีการสามารถปรับปรุงการอนุมานพารามิเตอร์เป้าหมายของคุณเพราะ regressors ซ้ำซ้อนถูกลงโทษในขั้นตอนของพวกเขา


การประมาณจุดที่ "ถูกต้อง"?
Richard Hardy

3

เพื่อทำการเลือกตัวแปรจากนั้นเรียกใช้ anslysis อีกครั้งราวกับว่าไม่มีการเลือกตัวแปรเกิดขึ้นและตัวแบบที่เลือกนั้นตั้งใจไว้ตั้งแต่เริ่มต้นซึ่งโดยทั่วไปจะนำไปสู่ขนาดผลกระทบที่เกินจริงค่า p-value ที่ไม่ถูกต้อง บางทีถ้าขนาดตัวอย่างใหญ่มากและมีเอฟเฟกต์ขนาดใหญ่และเอฟเฟกต์โมฆะจำนวนมาก LASSO + OLS อาจไม่ได้รับผลกระทบที่เลวร้ายเกินไปจากสิ่งนี้ แต่นอกเหนือจากนั้นฉันไม่เห็นเหตุผลที่สมเหตุสมผลและในกรณีนั้น LASSO การประมาณการก็น่าจะดีเช่นกัน


1
แต่ทำไมรุ่นที่สองเริ่มต้นจากศูนย์ราวกับว่าไม่มีการเลือกตัวแปรเกิดขึ้น LASSO เลือกตัวแปรอธิบายที่มีกำลังการทำนายที่ดีที่สุดหรือไม่? BTW ฉันคิดว่าจะทำสิ่งที่ตัวแปรเมทริกซ์กระจัดกระจาย LASSO เป็น glm อีกครั้ง ตอนนี้ฉันเข้าใจ LASSO ต่อ se แล้วการถดถอย
SIslam
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.