ทำไมสืบเชื้อสายการไล่ระดับสีใกล้เคียงแทนวิธีการ subgradient ธรรมดาสำหรับ Lasso?

ฉันคิดที่จะแก้ Lasso ผ่านวิธีการ subgradient วานิลลา แต่ฉันได้อ่านคนที่แนะนำให้ใช้การไล่ระดับสีแบบ Proximal บางคนสามารถเน้นว่าทำไม GD GD ใกล้เคียงแทนที่จะใช้วิธีการ subgradient วานิลลาสำหรับ Lasso?

— CKM
แหล่งที่มา

วิธีการแก้ปัญหาโดยประมาณสามารถพบได้จริงสำหรับ Lasso โดยใช้วิธีการ subgradient ตัวอย่างเช่นสมมติว่าเราต้องการลดฟังก์ชันการสูญเสียต่อไปนี้:

ฉ (W; λ) = ‖ Y - X W ‖_{2}^{2} + λ ‖ W ‖_{1}

$f(w; \lambda) = \| y - Xw \|_2^2 + \lambda \|w\|_1$

การไล่ระดับสีของระยะลูกโทษเป็นสำหรับและสำหรับแต่ระยะลูกโทษเป็น nondifferentiable ที่0แต่เราสามารถใช้ subgradientซึ่งเป็นเหมือนกัน แต่มีค่าเป็นสำหรับ0 $-\lambda$ $w_i < 0$ $\lambda$ $w_i > 0$ $0$ $\lambda \text{sgn}(w)$ $0$ $w_i = 0$

subgradient ที่สอดคล้องกันสำหรับฟังก์ชั่นการสูญเสียคือ:

ก. (W; λ) = - 2 X^{T} (Y - X W) + λ SGN (W)

$g(w; \lambda) = -2X^T (y - X w) + \lambda \text{sgn}(w)$

เราสามารถลดฟังก์ชั่นการสูญเสียให้น้อยที่สุดโดยใช้วิธีที่คล้ายกับการไล่ระดับสีไล่ระดับ แต่ใช้ subgradient (ซึ่งเท่ากับระดับการไล่ระดับสีทุกที่ยกเว้นซึ่งการไล่ระดับสีไม่ได้กำหนดไว้) วิธีการแก้ปัญหาอาจอยู่ใกล้กับโซลูชั่น Lasso ที่แท้จริง แต่อาจไม่มีศูนย์ที่แน่นอน - ที่ซึ่งน้ำหนักควรจะเป็นศูนย์ แต่จะมีค่าน้อยมากแทน การขาด sparsity ที่แท้จริงนี้เป็นเหตุผลหนึ่งที่ไม่ใช้วิธีการ subgradient สำหรับ lasso นักแก้ปัญหาเฉพาะจะใช้ประโยชน์จากโครงสร้างปัญหาเพื่อผลิตโซลูชั่นที่กระจัดกระจายอย่างแท้จริงในวิธีที่มีประสิทธิภาพในการคำนวณ โพสต์นี้ $0$ กล่าวว่านอกเหนือจากการผลิตสารละลายแบบเบาบางแล้ววิธีการเฉพาะ (รวมถึงวิธีการไล่ระดับสีแบบใกล้เคียง) มีอัตราการลู่เข้าที่เร็วกว่าวิธีการแบบ subgradient เขาให้การอ้างอิงบางอย่าง

— user20160
แหล่งที่มา