[คำถามที่คล้ายกันถูกถามที่นี่โดยไม่มีคำตอบ]
ฉันมีโมเดลการถดถอยโลจิสติกที่มีการทำให้เป็นมาตรฐาน L1 (การถดถอยโลจิสติก Lasso) และฉันต้องการทดสอบค่าสัมประสิทธิ์ที่เหมาะสมสำหรับความสำคัญและรับค่า p ของพวกเขา ฉันรู้ว่าการทดสอบของ Wald (ตัวอย่าง) เป็นตัวเลือกในการทดสอบความสำคัญของสัมประสิทธิ์ส่วนบุคคลในการถดถอยแบบเต็มโดยไม่มีการทำให้เป็นมาตรฐาน แต่ด้วย Lasso ฉันคิดว่าปัญหาอื่น ๆ เกิดขึ้นซึ่งไม่อนุญาตให้ใช้สูตร Wald ตามปกติ ตัวอย่างเช่นการประมาณค่าความแปรปรวน neded สำหรับการทดสอบไม่เป็นไปตามการแสดงออกปกติ กระดาษ Lasso ดั้งเดิม
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
แนะนำให้ใช้ขั้นตอนการบูตบู๊ตเพื่อประเมินความแปรปรวนของสัมประสิทธิ์ซึ่งอาจต้องใช้ (อีกครั้งฉันคิดว่า) สำหรับการทดสอบ (ส่วน 2.5 วรรคสุดท้ายของหน้า 272 และจุดเริ่มต้นที่ 273):
วิธีการหนึ่งคือผ่าน bootstrap:สามารถแก้ไขได้หรือเราอาจปรับให้เหมาะสมกับสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง การแก้ไขนั้นคล้ายคลึงกับการเลือกชุดย่อยที่ดีที่สุด ( จากคุณสมบัติ ) แล้วใช้ข้อผิดพลาดมาตรฐานกำลังสองน้อยที่สุดสำหรับชุดย่อยนั้น
สิ่งที่ฉันเข้าใจคือ: ติดตั้ง Lasso regression ซ้ำ ๆ กับชุดข้อมูลทั้งหมดจนกว่าเราจะหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐาน (นี่ไม่ใช่ส่วนหนึ่งของ bootstrap) จากนั้นใช้คุณสมบัติที่ Lasso เลือกให้พอดี ของข้อมูลและใช้สูตรปกติเพื่อคำนวณผลต่างจากการถดถอยแต่ละครั้ง (แล้วฉันควรทำอย่างไรกับความแปรปรวนทั้งหมดของสัมประสิทธิ์แต่ละอย่างเพื่อให้ได้การประมาณความแปรปรวนสุดท้ายของสัมประสิทธิ์แต่ละตัว?
นอกจากนี้มันถูกต้องหรือไม่ที่จะใช้การทดสอบความสำคัญตามปกติ (ตัวอย่างเช่นการทดสอบของ Wald ซึ่งใช้เบตาและความแปรปรวนโดยประมาณ) กับการประมาณค่า Lasso ของค่าสัมประสิทธิ์และความแปรปรวนที่ประมาณ bootstrap? ฉันค่อนข้างแน่ใจว่ามันไม่ได้ แต่ความช่วยเหลือใด ๆ (ใช้การทดสอบที่แตกต่างกันให้ใช้วิธีการที่ตรงไปตรงมามากยิ่งขึ้นสิ่งที่ ... ) เป็นมากกว่าการต้อนรับ
จากคำตอบที่นี่ฉันสงสัยว่าการอนุมานและค่า p ไม่สามารถหาได้ ในกรณีของฉันค่า p เป็นข้อกำหนดภายนอก (แม้ว่าการใช้การทำให้เป็นมาตรฐาน L1 เป็นตัวเลือกของฉัน)
ขอบคุณมาก
แก้ไข จะเกิดอะไรขึ้นถ้าฉันเหมาะสมกับการถดถอยโลจิสติก OLS โดยใช้ตัวแปรที่เลือกโดยการเรียกใช้การถดถอยโลจิสติก Lasso ก่อนหน้านี้เท่านั้น เห็นได้ชัด (ดูที่นี่ )
ไม่จำเป็นต้องเรียกใช้โมเดลอีกครั้งหลังจากทำการตรวจสอบข้าม (คุณเพิ่งได้ค่าสัมประสิทธิ์จากเอาต์พุตของ cv.glmnet) และในความเป็นจริงถ้าคุณพอดีกับโมเดลการถดถอยโลจิสติกใหม่โดยไม่มีการลงโทษคุณจะต้องเอาชนะวัตถุประสงค์ของการใช้ เชือก
แต่ถ้าฉันทำสิ่งนี้โดยมีวัตถุประสงค์เพียงอย่างเดียวในการคำนวณค่า p ในขณะที่รักษาจำนวนตัวแปรต่ำ มันเป็นวิธีที่สกปรกมากหรือไม่? :-)