ลองพิจารณารูปแบบที่ง่ายมาก:มีโทษ L1 บนและอย่างน้อยสี่เหลี่ยมฟังก์ชั่นการสูญเสียใน{E} เราสามารถขยายการแสดงออกที่จะลดลงเป็น:y=βx+eβ^e^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
ให้เราสมมติว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดคือซึ่งเทียบเท่ากับสมมติว่าและดูว่าเกิดอะไรขึ้นเมื่อเราเพิ่มการลงโทษ L1 ด้วย ,ดังนั้นระยะโทษเท่ากับ2อนุพันธ์ของฟังก์ชั่นวัตถุประสงค์ wrtคือ:β^>0yTx>0β^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
ซึ่งเห็นได้ชัดว่ามีทางออกTX) β^=(yTx−λ)/(xTx)
เห็นได้ชัดจากการเพิ่มเราสามารถขับเป็นศูนย์ได้ (ที่ ) อย่างไรก็ตามเมื่อเพิ่มจะไม่ทำให้เกิดผลลบเนื่องจากการเขียนอย่างหลวม ๆ ทันทีจะกลายเป็นค่าลบอนุพันธ์ของฟังก์ชันวัตถุประสงค์จะเปลี่ยนเป็น:λβ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
ที่พลิกเข้าสู่ระบบของเป็นเพราะค่าสัมบูรณ์ของระยะเวลาโทษธรรมชาติ; เมื่อกลายเป็นเชิงลบระยะโทษจะเท่ากับและการอนุพันธ์ WRTผลลัพธ์ใน-2สิ่งนี้นำไปสู่การแก้ปัญหาซึ่งเห็นได้ชัดว่าไม่สอดคล้องกับ (เนื่องจากวิธีแก้ปัญหากำลังสองน้อยที่สุด , ซึ่งหมายถึงและλβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0) มีการเพิ่มขึ้นของการลงโทษ L1 และการเพิ่มข้อผิดพลาดกำลังสอง (เนื่องจากเรากำลังเคลื่อนห่างจากวิธีกำลังสองน้อยที่สุด) เมื่อย้ายจากเป็นดังนั้นเราจึงไม่ทำเช่นนั้น ติดที่ 0β^0<0β^=0
มันควรจะเป็นอย่างสังหรณ์ใจล้างตรรกะเดียวกันกับที่มีการเปลี่ยนแปลงเข้าสู่ระบบที่เหมาะสมสำหรับการแก้ปัญหาสี่เหลี่ยมน้อยกับ<0 β^<0
ด้วยการลงโทษน้อยที่สุดอนุพันธ์จะกลายเป็น:λβ^2
−2yTx+2xTxβ^+2λβ^
ซึ่งเห็นได้ชัดว่ามีทางออกแลมบ์ดา) เห็นได้ชัดว่าไม่มีการเพิ่มขึ้นของจะผลักดันสิ่งนี้ให้เป็นศูนย์ ดังนั้นการลงโทษ L2 ไม่สามารถทำหน้าที่เป็นเครื่องมือในการเลือกตัวแปรได้หากไม่มีโฆษณา hockery เล็กน้อยเช่น "ตั้งค่าพารามิเตอร์ให้เท่ากับศูนย์หากมันน้อยกว่า " β^=yTx/(xTx+λ)λϵ
เห็นได้ชัดว่าสิ่งต่าง ๆ สามารถเปลี่ยนแปลงได้เมื่อคุณย้ายไปยังโมเดลหลายตัวแปรเช่นการย้ายการประมาณหนึ่งพารามิเตอร์รอบ ๆ อาจบังคับให้อีกคนหนึ่งเปลี่ยนสัญญาณ แต่หลักการทั่วไปเหมือนกัน: ฟังก์ชันการลงโทษ L2 ไม่สามารถทำให้คุณเป็นศูนย์ได้ เพราะการเขียนแบบฮิวริสติกนัลจะมีผลกับ "ส่วน" ของนิพจน์สำหรับแต่ฟังก์ชันการลงโทษ L1 สามารถทำได้เพราะมันส่งผลให้เพิ่ม "เศษ" β^