เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย


16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย

หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร


2
"เอฟเอ็นเอ็กซ์"? ... โปรดแก้ไขเพื่อให้ชัดเจนยิ่งขึ้น คุณหมายถึง "function" หรือไม่
Glen_b -Reinstate Monica

คำตอบ:


25

ลองพิจารณาปัญหาหนึ่งมิติสำหรับการแสดงออกที่เป็นไปได้ง่ายที่สุด (กรณีมิติที่สูงกว่ามีคุณสมบัติคล้ายกัน)

ในขณะที่ทั้งสองและแต่ละอันมีค่าต่ำสุดที่ไม่ซ้ำกัน(ผลรวมของฟังก์ชั่นค่าสัมบูรณ์ที่มี x-offsets ที่แตกต่างกัน) มักจะไม่ พิจารณาและ :|xμ|(xμ)2i|xiμ|x1=1x2=3

พล็อตของ sum_i | x_i - mu |

(NB แม้จะมีฉลากบนแกน x นี่เป็นฟังก์ชั่นของจริง ๆ ฉันควรจะแก้ไขฉลาก แต่ฉันจะปล่อยไว้เหมือนเดิม)μ

ในมิติที่สูงขึ้นคุณจะได้รับขั้นต่ำของภูมิภาคอย่างต่อเนื่องกับ -norm มีตัวอย่างในกรณีของการกระชับสายที่นี่L1

ผลรวมของรูปสี่เหลี่ยมจัตุรัสยังคงเป็นกำลังสองดังนั้นจะมีวิธีแก้ปัญหาเฉพาะ ในมิติที่สูงขึ้น (การถดถอยหลายครั้ง) ปัญหากำลังสองอาจไม่มีขั้นต่ำที่ไม่ซ้ำกันโดยอัตโนมัติ - คุณอาจมีความสัมพันธ์หลายทางที่นำไปสู่สันเขามิติต่ำในเชิงลบของการสูญเสียในพื้นที่พารามิเตอร์; นั่นเป็นปัญหาที่แตกต่างจากที่แสดงไว้ที่นี่i(xiμ)2=n(x¯μ)2+k(x)


คำเตือน. หน้าเว็บที่คุณเชื่อมโยงไปยังอ้างว่า -norm ถดถอยเป็นไปอย่างแข็งแกร่ง ฉันต้องบอกว่าฉันไม่เห็นด้วยอย่างสมบูรณ์ มันแข็งแกร่งเมื่อเทียบกับการเบี่ยงเบนขนาดใหญ่ในทิศทาง y ตราบใดที่มันไม่ใช่จุดที่มีอิทธิพล (ไม่เหมือนกันใน x-space) มันสามารถถูกทำให้เมาโดยพลการไม่ดีแม้แต่คนเดียวที่มีอิทธิพล มีตัวอย่างที่เป็นที่นี่L1

เนื่องจาก (นอกบางสถานการณ์) คุณมักจะไม่ได้รับการรับรองใด ๆ จากการสังเกตการณ์ที่มีอิทธิพลสูงฉันจึงไม่เรียก L1-regression ที่แข็งแกร่ง


รหัส R สำหรับพล็อต:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

มันเยี่ยมมาก คุณใช้ซอฟต์แวร์ใดในการทำกราฟ
user3180

2
อาร์สิ่งนี้ทำในฐานกราฟิก ฉันเพิ่มรหัสไปที่ท้ายคำตอบแล้ว
Glen_b -Reinstate Monica

1
plotว้าวไม่เคยตระหนักถึงคุณสามารถจัดหาฟังก์ชั่น ใจถูกเป่า
JAD

5

การลดการสูญเสีย L2 ให้สอดคล้องกับการคำนวณค่าเฉลี่ยเลขคณิตซึ่งไม่มีความชัดเจนในขณะที่การลดการสูญเสีย L1 นั้นสอดคล้องกับการคำนวณค่ามัธยฐานซึ่งจะไม่ชัดเจนหากองค์ประกอบจำนวนคู่รวมอยู่ในการคำนวณค่ามัธยฐาน (ดูแนวโน้มกลาง) )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.