การอนุมานหลังจากใช้ Lasso เพื่อเลือกตัวแปร


17

ฉันใช้ Lasso สำหรับการเลือกคุณสมบัติในการตั้งค่ามิติที่ค่อนข้างต่ำ (n >> p) หลังจากติดตั้ง Lasso model แล้วฉันต้องการใช้ covariates กับสัมประสิทธิ์ที่ไม่ใช่ศูนย์เพื่อให้พอดีกับ model โดยไม่มีการลงโทษ ฉันกำลังทำเช่นนี้เพราะฉันต้องการการประเมินที่เป็นกลางซึ่ง Lasso ไม่สามารถให้ฉันได้ ฉันยังต้องการค่า p และช่วงความเชื่อมั่นสำหรับการประเมินที่เป็นกลาง

ฉันมีปัญหาในการค้นหาวรรณกรรมในหัวข้อนี้ วรรณคดีที่ฉันพบส่วนใหญ่เกี่ยวกับการกำหนดช่วงความเชื่อมั่นในการประเมิน Lasso ไม่ใช่โมเดลที่มีการปรับปรุง

จากสิ่งที่ฉันได้อ่านเพียงแค่อ้างอิงโมเดลโดยใช้ชุดข้อมูลทั้งหมดทำให้เกิดข้อผิดพลาด p-values ​​/ std ที่ไม่สมจริง ตอนนี้การแยกตัวอย่าง (ในรูปแบบของ Wasserman และ Roeder (2014) หรือ Meinshausen et al. (2009)) ดูเหมือนจะเป็นแนวทางที่ดี แต่ฉันกำลังมองหาคำแนะนำเพิ่มเติม

มีใครพบปัญหานี้หรือไม่? ถ้าเป็นเช่นนั้นคุณช่วยกรุณาให้คำแนะนำได้ไหม


ฉันไม่เข้าใจว่าทำไมมันควรจะสำคัญถ้าตัวประมาณค่าแบบบ่วงบาศตราบเท่าที่ช่วงความเชื่อมั่นมีความครอบคลุมที่ถูกต้อง (อย่างน้อยเชิงเส้นกำกับ) นี่เป็นเหตุผลเดียวที่คุณต้องการให้พอดีกับค่าประมาณ OLS ของการสนับสนุนที่กู้คืนมาจากเชือก
user795305

บางทีฉันอาจเข้าใจผิดในสิ่งที่ฉันได้อ่าน แต่ไม่ครอบคลุมความถูกต้องเชิงเส้นกำกับหมายถึงการประเมินแบบเอนเอียงไม่ใช่การประมาณแบบเบาบาง แต่ไม่เอนเอียงจริงหรือ
EliK

1
ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดยประมาณการ "จริงหร็อมแหร็ม แต่ไม่ลำเอียง" แต่ถ้าคุณรู้ว่าประมาณการเชือกมีช่วงความเชื่อมั่นที่มีความคุ้มครองที่ถูกต้อง asymptotically ไม่ควรทำอะไรอีก บทความที่เพิ่งเชื่อมโยงโดย Greenparker (+1) เป็นสิ่งที่น่าสนใจจริงๆ (และล่าสุดที่ฉันรู้ในหัวข้อนี้) ที่กล่าวถึง (บางส่วน) วิธีที่คุณสามารถพัฒนาช่วงความเชื่อมั่นที่ถูกต้องเชิงเส้นกำกับบน lasso และค่าสัมประสิทธิ์ ols ฉันพยายามที่จะชี้ให้เห็นว่าคุณไม่จำเป็นต้องติดตั้ง OLS เพื่อให้ได้ค่าสัมประสิทธิ์ที่เป็นกลางเนื่องจากความเป็นกลางไม่สำคัญ
user795305

ฉันคิดว่าฉันเข้าใจผิด ความครอบคลุมที่ถูกต้องเชิงเส้นกำกับที่คุณอ้างถึงนั้นเกี่ยวกับพารามิเตอร์จริง ดังนั้นแม้ว่า Lasso จะให้ค่าสัมประสิทธิ์แบบเอนเอียง แต่เราสามารถสร้างช่วงความมั่นใจซึ่งมีการครอบคลุมที่ถูกต้องสำหรับพารามิเตอร์ที่แท้จริง?
EliK

2
เมื่อคุณเลือกรุ่นแล้วคุณจะไม่ได้รับการประเมินที่ต่ำกว่าหากคุณประมาณการโดยไม่มี Lasso สัมประสิทธิ์ของคำศัพท์ในแบบจำลองหลังจากเลือกตัวแปรแล้วจึงพอดีผ่าน OLS จริงจะมีอคติห่างจาก 0 (เช่นเดียวกับรูปแบบอื่น ๆ ของการเลือกตัวแปร) การหดตัวเล็กน้อยอาจลดความเบี่ยงเบนได้
Glen_b -Reinstate Monica

คำตอบ:


12

เพื่อเพิ่มการตอบสนองก่อนหน้า คุณควรตรวจสอบงานล่าสุดโดย Tibshirani และเพื่อนร่วมงาน พวกเขาได้พัฒนากรอบที่เข้มงวดสำหรับการอนุมานค่า p ที่แก้ไขการเลือกและช่วงความเชื่อมั่นสำหรับวิธีการแบบ lasso และยังให้ R-package

ดู:

ลี, เจสันดี, และคณะ "การอนุมาน post-selection ที่แน่นอนพร้อมกับแอปพลิเคชันไปที่ lasso" พงศาวดารสถิติ 44.3 (2016): 907-927 ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan, และ Robert J. Tibshirani "การเรียนรู้เชิงสถิติและการอนุมานแบบเลือกสรร" กิจการของ National Academy of Sciences 112.25 (2015): 7629-7634

R-แพคเกจ:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

โดยทั่วไปการ refitting โดยไม่มีการลงโทษหลังจากเสร็จสิ้นการเลือกตัวแปรผ่าน Lasso นั้นถือว่าเป็นการ "โกง" เนื่องจากคุณได้ดูข้อมูลแล้วและค่า p-value และช่วงความเชื่อมั่นที่ได้นั้นไม่ถูกต้องตามปกติ

p

ชุดของตัวแปรที่เลือกโดย lasso นั้นเป็นแบบกำหนดค่าได้และไม่ใช่ข้อมูลขึ้นอยู่กับความน่าจะเป็นสูง

ดังนั้นการแอบดูข้อมูลสองครั้งจึงไม่ใช่ปัญหา คุณจะต้องดูว่าสำหรับปัญหาของคุณเงื่อนไขที่ระบุไว้ในกระดาษถือหรือไม่

(มีการอ้างอิงที่มีประโยชน์มากมายในกระดาษเช่นกัน)


อ้างอิง:

Zhao, S. , Shojaie, A. , & Witten, D. (2017) ในการป้องกันการแก้ตัว: วิธีการที่ไร้เดียงสามากในการอนุมานมิติสูง สืบค้นจาก: https://arxiv.org/pdf/1705.05543.pdf


9
+1 เป็นที่น่าสังเกตว่าผู้เขียนไม่แนะนำวิธีการของพวกเขาอย่างชัดเจนยกเว้น "ในการตั้งค่าข้อมูลที่มีขนาดใหญ่มาก": "เราไม่สนับสนุนให้ใช้ ... วิธีการที่อธิบายไว้ข้างต้นในการตั้งค่าการวิเคราะห์ข้อมูลจริง: เรามั่นใจ ในทางปฏิบัติ ... วิธีการนี้จะทำงานได้ไม่ดีเมื่อขนาดตัวอย่างเล็กหรือปานกลางและ / หรือสมมติฐานไม่เป็นไปตามที่กำหนด "(หน้า 27) สำหรับบันทึกบทความนี้คือ Zhao, Shojaie และ Witten ในการป้องกันสิ่งที่ขาดไม่ได้: แนวทางที่ไร้เดียงสาสำหรับการอนุมานมิติสูง (16 พฤษภาคม 2017)
whuber

@whuber และโปรดทราบว่าบทความนี้อยู่ใน arxiv.org - ไม่แน่ใจว่าได้รับการตรวจสอบโดยเพื่อน ๆ หรือไม่ดังนั้นอาจมีปัญหาอื่น ๆ เกี่ยวกับวิธีการของผู้เขียน
RobertF

0

ฉันต้องการเพิ่มเอกสารบางส่วนจากวรรณกรรมการเรียนรู้แบบมุมฉาก / คู่ที่กำลังเป็นที่นิยมในวรรณคดีประยุกต์

  • Belloni, Alexandre, Victor Chernozhukov และ Christian Hansen "การอนุมานเกี่ยวกับผลการรักษาหลังจากการเลือกในการควบคุมมิติสูง" การทบทวนวิชาเศรษฐศาสตร์ศึกษา 81.2 (2014): 608-650

    บทความนี้กล่าวถึงคุณสมบัติทางทฤษฎีของการประมาณค่า OLS ของผลกระทบของตัวแปรหลังจากเลือกตัวควบคุม "อื่น ๆ " โดยใช้ LASSO

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, การเรียนรู้ด้วยเครื่องคู่ / debiased สำหรับการรักษาและพารามิเตอร์โครงสร้างวารสารเศรษฐมิติเล่มที่ 21, วันที่ 1 กุมภาพันธ์ 2018, หน้า C1-C68 , https://doi.org/10.1111/ectj.12097

    สิ่งนี้พัฒนาทฤษฎีที่ครอบคลุมสำหรับการใช้วิธีการที่ไม่อิงพารามิเตอร์ (อัลกอริธึม ML) จำนวนมากเพื่อการควบคุมแบบไม่เชิงเส้นสำหรับพารามิเตอร์รบกวนระดับสูง (Confounders) จากนั้นศึกษาผลกระทบของตัวแปรร่วมที่เฉพาะเจาะจงต่อผลลัพธ์ พวกเขาจัดการกับกรอบเชิงเส้นบางส่วนและกรอบตัวแปรอย่างสมบูรณ์ พวกเขายังพิจารณาถึงสถานการณ์ที่ตัวแปรที่น่าสนใจสับสน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.