มุมมองที่พบบ่อย👀
ในแง่หนึ่งเราสามารถนึกได้ว่าการทำให้เป็นมาตรฐานทั้งสองเป็น"การลดน้ำหนัก" ; L2 ลดบรรทัดฐาน Euclidean ของตุ้มน้ำหนักขณะที่ L1 ลดเกณฑ์ปกติของแมนฮัตตัน ตามแนวความคิดนี้เราสามารถเหตุผลที่ equipotentials ของ L1 และ L2 เป็นทรงกลมและเพชรรูปตามลำดับเพื่อ L1 มีแนวโน้มที่จะนำไปสู่การแก้ปัญหาเบาบางดังแสดงในบิชอปรูปแบบการรับรู้และการเรียนรู้เครื่อง :
ดูแบบเบย์ ian
อย่างไรก็ตามเพื่อให้เข้าใจวิธีไพรเออร์ที่เกี่ยวข้องกับโมเดลเชิงเส้นตรงเราต้องเข้าใจการตีความแบบเบย์ของการถดถอยเชิงเส้นสามัญ โพสต์บล็อก Katherine Baileyเป็นหนังสือที่ยอดเยี่ยมสำหรับเรื่องนี้ สรุปเราถือว่าข้อผิดพลาด iid กระจายตามปกติในโมเดลเชิงเส้นของเรา
y = θ⊤X + ϵ
ยังไม่มีข้อความYผม, i = 1 , 2 , … , Nεk∼ N( 0 , σ)
Yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
ตามที่ปรากฎ ... ตัวประมาณความน่าจะเป็นสูงสุดนั้นเหมือนกันกับการลดข้อผิดพลาดกำลังสองระหว่างการคาดการณ์กับค่าผลลัพธ์จริงภายใต้สมมติฐานปกติสำหรับข้อผิดพลาด
θ^MLE= หาเรื่องสูงสุดθเข้าสู่ระบบP( y| θ)= หาเรื่องนาทีθΣi = 1n( yผม- θ⊤xผม)2
วางมาตรฐานในการวางนักบวชให้น้ำหนัก
ถ้าเราต้องวางแบบไม่สม่ำเสมอก่อนน้ำหนักของการถดถอยเชิงเส้นค่าประมาณความน่าจะเป็นด้านหลัง (MAP) สูงสุดคือ:
θ^แผนที่= หาเรื่องสูงสุดθเข้าสู่ระบบP( y| θ)+บันทึกP( θ )
P( θ )θ
P( θ )θ
ตอนนี้เรามีมุมมองอื่นว่าทำไมการวาง Laplace ก่อนน้ำหนักจึงมีแนวโน้มที่จะทำให้เกิด sparsity: เนื่องจากการกระจาย Laplace มีความเข้มข้นมากกว่ารอบศูนย์น้ำหนักของเราน่าจะเป็นศูนย์