วิธีการใช้การทำให้เป็นมาตรฐาน L2 ไปยังจุดที่ว่างในพื้นที่?


11

นี่คือสิ่งที่ผมอ่านในหนังสือเอียน Goodfellow ของการเรียนรู้ลึก

ในบริบทของเครือข่ายนิวรัล "การปรับค่าพารามิเตอร์ของพารามิเตอร์ L2 เป็นที่รู้กันทั่วไปว่าเป็นการลดน้ำหนักกลยุทธ์การทำให้เป็นมาตรฐานนี้ทำให้น้ำหนักใกล้เคียงกับแหล่งกำเนิด [... ] โดยทั่วไปเราสามารถทำให้ค่าพารามิเตอร์อยู่ใกล้กับจุดใด ๆ ในช่องว่าง "แต่มันเป็นเรื่องธรรมดามากที่จะทำให้พารามิเตอร์ของโมเดลเป็นศูนย์ (การเรียนรู้อย่างลึก Goodfellow และคณะ)

ฉันแค่อยากรู้ ฉันเข้าใจว่าเพียงเพิ่มคำ normalizing ในฟังก์ชันต้นทุนของเราและด้วยการลดค่าใช้จ่ายทั้งหมดJเราสามารถส่งผลต่อพารามิเตอร์ของแบบจำลองให้มีขนาดเล็กลง:

J(Θ,X,Y)=L(Θ,X,Y)+λ||W||22

แต่เราจะใช้กลยุทธ์การทำให้เป็นมาตรฐานนี้ได้อย่างไรซึ่งจะนำพารามิเตอร์ไปสู่จุดใด ๆ (กล่าวว่าเราต้องการบรรทัดฐานมีแนวโน้มที่จะ 5)

คำตอบ:


14

คุณถามคำถามสองข้อที่แตกต่างกัน

  1. การมีบรรทัดฐานมักจะ 5 หมายความว่าคุณต้องการให้น้ำหนักอยู่ใกล้พื้นผิวของไฮเปอร์สเฟียร์ที่กึ่งกลางที่จุดกำเนิดด้วยรัศมี 5 การทำให้เป็นระเบียบนี้มีลักษณะเหมือน

J(Θ,X,Y)=L(Θ,X,Y)+λ(||W||22-5)2

แต่คุณสามารถใช้แทนสิ่งที่ต้องการฉันคิดว่าλเอบีเอส(||W||22-5)

  1. ในทางกลับกันถ้าคุณต้องการที่จะมีแนวโน้มต่อจุดโดยพลการ, คุณเพียงแค่ต้องใช้จุดที่เป็นศูนย์ค

J(Θ,X,y)=L(Θ,X,Y)+λ||W-||22

(+1) ฉันคิดว่าเป็นวิธีที่มีประโยชน์ที่จะคิดเกี่ยวกับ "norm tending ถึงห้า" สามารถผ่านทางเลือกของพารามิเตอร์การปรับในรุ่นให้โดย OP (แทนที่จะเปลี่ยนฟังก์ชั่น)J
user795305

(ฉันได้เขียนคำตอบสั้น ๆ เพื่อชี้แจงสิ่งที่ฉันหมายถึงข้างต้นขอบคุณโดยวิธีการชี้แจงความแตกต่างของทั้งสองคำถามที่ถาม!)
user795305

เป้าหมายทั่วไป (ที่ใช้งานได้จริง) เมื่อทำเช่นนั้นเพื่อทำให้เป็นปกติในจุดปฏิบัติการบางอย่างที่รู้จักเช่นรุ่นก่อนหน้าที่คุณต้องการแทนที่ แต่คุณต้องการการเปลี่ยนแบบ "ราบรื่น"
oDDsKooL

6

กำหนดW λ = หาเรื่องนาทีW L ( Θ , X , Y ) + λ W 2 2 เรารู้ว่าลิมλ →การW λ = 0เนื่องจากโทษW W 2 2มีต้นกำเนิดเป็นผืนของมัน

W^λ=หาเรื่องนาทีWL(Θ,X,Y)+λW22.
LimλW^λ=0WW22

จุด Sycorax ให้เห็นว่าในทำนองเดียวกันการวางนัยทั่วไปที่ประสบความสำเร็จอาจทำให้เราเสนอตัวประมาณ˜ w λ = หาเรื่องmin w L ( Θ , X , y ) + λ p e n ( wLimλ{หาเรื่องนาทีWL(Θ,X,Y)+λW-22}=.ที่ p e nเป็นฟังก์ชั่นที่ minimizer สร้างความพึงพอใจให้กับคุณสมบัติบางอย่างที่เราแสวงหา ที่จริงแล้ว Sycorax ใช้ p e n ( w ) = g ( w 2 2 - 5 )โดยที่ gถูกลดขนาดลงที่จุดกำเนิด (ไม่ซ้ำกัน) และโดยเฉพาะ g { | | ,

W~λ=หาเรื่องนาทีWL(Θ,X,Y)+λพีอีn(W),
พีอีnพีอีn(W)=ก.(W22-5)ก. } ดังนั้น Lim λ →การ~ W λ 2 2 = 5 , ตามที่ต้องการ แต่น่าเสียดายที่ทั้งสองตัวเลือกของ gนำไปสู่การลงโทษที่ไม่ใช่แบบ nonconvex ทำให้การประมาณค่าทำได้ยากก.{||,()2}LimλW~λ22=5ก.

การวิเคราะห์ข้างต้นน่าจะเป็นทางออกที่ดีที่สุด (อาจจะถึงทางเลือกของซึ่งผมไม่มีดีกว่าที่จะแนะนำ) ถ้าเรายืนยันในλ →การเป็นการตีความที่ไม่ซ้ำกันของ "แนวโน้มที่จะ" อธิบายไว้ในคำถาม แต่สมมติว่าหาเรื่องนาทีW L ( Θ , X , Y ) 2 25มีอยู่บางΛเพื่อให้ผืนW Λของ OP ของ satsifes ปัญหาW Λ 2 2 =ก.λหาเรื่องนาทีWL(Θ,X,Y)225ΛW^Λ . ดังนั้น Lim λ →การΛW λ2 2 = 5 ,โดยไม่จำเป็นต้องเปลี่ยนเป้าหมายการทำงาน ถ้าไม่มีเช่น Λอยู่แล้วปัญหาของการคำนวณหาเรื่องนาทีW : W 2 2 = 5 L ( Θ , X , Y )เป็นเรื่องยากยิ่ง อันที่จริงก็ไม่จำเป็นที่จะต้องพิจารณาประมาณการใด ๆ นอกเหนือจาก W λเมื่อพยายามที่จะส่งเสริมให้มีคุณสมบัติตามธรรมชาติของW^Λ22=5

LimλΛW^λ22=5,
Λหาเรื่องนาทีW:W22=5L(Θ,X,Y)W^λ 2W^λ22

(เพื่อบังคับใช้ให้ตัวประมาณที่ถูกลงโทษได้รับค่าของบทลงโทษซึ่งไม่สำเร็จโดยผู้ประเมินที่ไม่ผ่านการทดสอบนั้นดูเหมือนจะผิดธรรมชาติอย่างมากสำหรับฉันหากใครก็ตามที่ตระหนักถึงสถานที่ใด ๆ


1
นี่คือการเพิ่มที่ยอดเยี่ยม +1
Sycorax พูดว่า Reinstate Monica

2

LJ

มันควรง่ายที่จะเห็นตัวอย่างของ Sycorax ในแง่ของ MAP

สำหรับรายละเอียดของแผนที่คุณสามารถดูบันทึกเหล่านี้ได้ จากประสบการณ์ของฉัน googling 'สูงสุดหลังปกติ' ให้ผลลัพธ์ที่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.