ขออภัยถ้าคำถามนี้เจอพื้นฐานเล็กน้อย
ฉันกำลังมองหาที่จะใช้การเลือกตัวแปร LASSO สำหรับตัวแบบการถดถอยเชิงเส้นหลายแบบในอาร์ฉันมีตัวทำนาย 15 ตัวซึ่งหนึ่งในนั้นคือหมวดหมู่ (นั่นจะทำให้เกิดปัญหาหรือไม่) หลังจากตั้งค่าและฉันฉันใช้คำสั่งต่อไปนี้:
model = lars(x, y)
coef(model)
coef(model)
ปัญหาของฉันคือเมื่อฉันใช้ สิ่งนี้จะส่งกลับเมทริกซ์ที่มี 15 แถวโดยเพิ่มตัวทำนายพิเศษหนึ่งตัวในแต่ละครั้ง อย่างไรก็ตามไม่มีข้อเสนอแนะว่าควรเลือกรุ่นใด ฉันพลาดอะไรไปหรือเปล่า มีวิธีที่ฉันจะได้รับแพคเกจ lars เพื่อส่งกลับแบบ " ดีที่สุด " เพียงหนึ่งรุ่นหรือไม่?
มีโพสต์อื่น ๆ ที่แนะนำให้ใช้glmnet
แทน แต่ดูเหมือนจะซับซ้อนกว่านี้ ความพยายามดังต่อไปนี้โดยใช้และเดียวกัน ฉันพลาดอะไรที่นี่ไหม:
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
คำสั่งสุดท้ายส่งกลับรายการตัวแปรของฉันส่วนใหญ่มีค่าสัมประสิทธิ์แม้ว่าบาง = 0 นี่เป็นตัวเลือกที่ถูกต้องของรุ่น " ดีที่สุด " ที่เลือกโดย LASSO หรือไม่ ถ้าฉันพอดีกับโมเดลเชิงเส้นกับตัวแปรทั้งหมดที่มีค่าสัมประสิทธิ์not=0
ฉันจะคล้ายกันมาก แต่ค่าประมาณสัมประสิทธิ์แตกต่างกันเล็กน้อย มีเหตุผลสำหรับความแตกต่างนี้หรือไม่? มันจะเป็นที่ยอมรับหรือไม่ที่จะดัดแปลงโมเดลเชิงเส้นด้วยตัวแปรเหล่านี้ที่ LASSO เลือกและนำมาเป็นโมเดลสุดท้ายของฉัน มิฉะนั้นฉันไม่สามารถเห็นค่า p ใด ๆ สำหรับความสำคัญ ฉันพลาดอะไรไปหรือเปล่า
ทำ
type.gaussian="covariance"
ให้แน่ใจว่าglmnet
ใช้การถดถอยเชิงเส้นหลายรายการ?
การปรับสภาพของตัวแปรอัตโนมัติส่งผลกระทบต่อค่าสัมประสิทธิ์หรือไม่? มีวิธีใดบ้างที่จะรวมคำศัพท์ในการโต้ตอบในขั้นตอน LASSO?
ฉันกำลังมองหาที่จะใช้ขั้นตอนนี้มากขึ้นเพื่อแสดงให้เห็นว่า LASSO สามารถใช้งานได้อย่างไรมากกว่ารุ่นใด ๆ ที่จะใช้สำหรับการอนุมาน / การทำนายที่สำคัญหากการเปลี่ยนแปลงนั้นเกิดขึ้น
ขอบคุณที่สละเวลาอ่านข้อความนี้ ความคิดเห็นทั่วไปเกี่ยวกับ LASSO / lars / glmnet ก็จะได้รับการชื่นชมอย่างมากเช่นกัน