เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?


27

ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBi

ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?


@ user777 ฉันหยิบหนังสือเล่มนั้นมาซักพักหนึ่งวันนี้ ไม่พบสิ่งที่เกี่ยวข้อง
Wintermute

3
ที่เกี่ยวข้อง: stats.stackexchange.com/questions/177210/…
ทิม

คำตอบ:


30

เพื่อความง่ายลองพิจารณาการสังเกตตัวแปรเพียงครั้งเดียวเช่น Y

Y|μ,σ2~ยังไม่มีข้อความ(μ,σ2),

μ~Laplace(λ) และที่ไม่เหมาะสมก่อนที่ 0}(σ)α1σ>0

จากนั้นความหนาแน่นของรอยต่อเป็นสัดส่วนกับ Y,μ,σ2

(Y,μ,σ2|λ)α1σประสบการณ์(-(Y-μ)2σ2)×2λอี-λ|μ|.

การบันทึกและยกเลิกข้อกำหนดที่ไม่เกี่ยวข้องกับ , log f ( Y , μ , σ 2 ) = - 1μ

เข้าสู่ระบบ(Y,μ,σ2)=-1σ2Y-μ22-λ|μ|.(1)

ดังนั้นสูงสุด (1) จะมีการประมาณการแผนที่และแน่นอนปัญหาเชือกหลังจากที่เรา reparametrize λ~=λσ2 2

ส่วนขยายที่จะถดถอยเป็นที่ชัดเจน - แทนที่กับในโอกาสปกติและตั้งก่อนในไปเป็นลำดับของ Laplace อิสระกระจายX บีตาบีตา( λ )μXββ(λ)


25

สิ่งนี้ชัดเจนโดยการตรวจสอบปริมาณที่ LASSO ปรับให้เหมาะสม

ใช้ก่อนสำหรับจะเป็น Laplace อิสระที่มีศูนย์เฉลี่ยและบางขนาด\ τβผมτ

ดังนั้น|}พี(β|τ)αอี-12τΣผม|βผม|

รูปแบบสำหรับข้อมูลที่เป็นปกติสมมติฐานการถดถอย2)Y~IIDยังไม่มีข้อความ(Xβ,σ2)

(Y|X,β,σ2)α(σ2)-n/2ประสบการณ์(-12σ2(Y-Xβ)T(Y-Xβ))

ตอนนี้ลบสองครั้งบันทึกของหลังเป็นรูป

1k(σ2,τ,n,พี)+ 1σ2(Y-Xβ)T(Y-Xβ)+1τΣผม|βผม|

ให้และเราได้รับ log- ข้างหน้าของ- 2 บันทึกλ=σ2/τ-2เข้าสู่ระบบ

1k(σ2,λ,n,พี)+ 1σ2[(Y-Xβ)T(Y-Xβ)+λΣผม|βผม|]

ตัวประมาณค่า MAP สำหรับย่อเล็กสุดด้านบนซึ่งย่อเล็กสุดβ

S=(Y-Xβ)T(Y-Xβ)+λΣผม|βผม|

ตัวประมาณค่า MAP สำหรับคือ LASSOβ

(ที่นี่ฉันได้รับการปฏิบัติได้รับการแก้ไขอย่างมีประสิทธิภาพ แต่คุณสามารถทำสิ่งอื่นกับมันและยังคงได้รับ LASSO ออกมา)σ2

แก้ไข: นั่นคือสิ่งที่ฉันได้รับจากการเขียนคำตอบ ฉันไม่เห็นคำตอบที่ดีถูกโพสต์โดย Andrew แล้ว ฉันไม่ได้ทำในสิ่งที่เขาไม่ได้ทำ ฉันจะออกจากเหมืองในขณะนี้เพราะมันจะช่วยให้คู่รายละเอียดเพิ่มเติมของการพัฒนาในแง่ของ\β


1
ดูเหมือนจะมีความแตกต่างในคำตอบและแอนดรูของคุณ คำตอบของคุณมีรูปแบบที่ถูกต้องของ regularizer:ในขณะที่ Andrew มีซึ่งในการถดถอยเชิงเส้นที่เราได้รับ\ λ | μ | μ = X βλβ1λ|μ|μ=Xβ
Alex R.

2
@AlexR ฉันคิดว่าคุณตีความμผิดในคำตอบของ Andrew μที่นั่นสอดคล้องกับในการถดถอยโดยมีจุดตัดเท่านั้นไม่ใช่ในการถดถอยหลายครั้ง อาร์กิวเมนต์เดียวกันตามมาสำหรับตัวพิมพ์ใหญ่ (สังเกตความคล้ายคลึงกับคำตอบของฉัน) แต่มันง่ายกว่าที่จะติดตามในกรณีง่าย ๆ คำตอบของแอนดรูว์นั้นถูกต้องแล้ว แต่ไม่ได้เชื่อมต่อจุดทั้งหมดกับคำถามเดิมโดยปล่อยให้ผู้อ่านกรอกจำนวนเล็กน้อยฉันคิดว่าคำตอบของเรานั้นสอดคล้องกัน (ขึ้นอยู่กับความแตกต่างเล็กน้อยที่เกี่ยวข้องกับσ และเขาสมควรได้รับเห็บอย่างเต็มที่ X ββ0Xβ
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.