โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก


41

โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:α

ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตรา

Δωi(t+1)=ηEwi+αΔωi(t),
E(w)wη

การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λ

Δωi(t+1)=ηEwiληωi

คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล?

Δωi(t+1)=ηEwi+αΔωi(t)ληωi

1
คุณหมายถึงการพูดωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t), แทนΔωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?
hakunamatata

คำตอบ:


48

ใช่มันเป็นเรื่องธรรมดามากที่จะใช้ทั้งสองอย่าง พวกเขาแก้ปัญหาต่าง ๆ และสามารถทำงานร่วมกันได้ดี

วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ก็คือการสลายตัวของน้ำหนักเปลี่ยนแปลงฟังก์ชั่นที่ถูกที่ดีที่สุดในขณะที่โมเมนตัมการเปลี่ยนแปลงเส้นทางที่คุณใช้เวลาในการที่เหมาะสม

น้ำหนักตัวลดลงโดยการลดค่าสัมประสิทธิ์ของคุณเป็นศูนย์เพื่อให้แน่ใจว่าคุณพบค่าที่เหมาะสมที่สุดในท้องถิ่นด้วยพารามิเตอร์ขนาดเล็ก สิ่งนี้มักจะเป็นสิ่งสำคัญสำหรับการหลีกเลี่ยงการ overfitting (แม้ว่าข้อ จำกัด อื่น ๆ เกี่ยวกับน้ำหนักก็สามารถใช้ได้เช่นกัน) นอกจากประโยชน์ด้านข้างแล้วมันยังสามารถทำให้แบบจำลองง่ายขึ้นเพื่อปรับให้เหมาะสมโดยการทำให้ฟังก์ชั่นวัตถุประสงค์นูนขึ้น

เมื่อคุณมีฟังก์ชั่นวัตถุประสงค์แล้วคุณต้องตัดสินใจว่าจะทำยังไง เชื้อสายที่ลาดชันที่สุดในการไล่ระดับสีเป็นวิธีที่ง่ายที่สุด แต่คุณพูดถูกที่ความผันผวนอาจเป็นปัญหาใหญ่ การเพิ่มโมเมนตัมช่วยแก้ปัญหานั้นได้ หากคุณกำลังทำงานกับการอัปเดตแบบกลุ่ม (ซึ่งมักเป็นแนวคิดที่ไม่ดีกับเครือข่ายประสาทเทียม) ขั้นตอนประเภทของนิวตันเป็นอีกทางเลือกหนึ่ง วิธีการ "ร้อน" แบบใหม่นั้นขึ้นอยู่กับการไล่ระดับสีแบบเร่งความเร็วของ Nesterov และการเพิ่มประสิทธิภาพแบบ "ปราศจาก Hessian"

แต่ไม่ว่ากฎการอัปเดตใดที่คุณใช้ (โมเมนตัมนิวตัน ฯลฯ ) คุณยังคงทำงานกับฟังก์ชันวัตถุประสงค์เดียวกันซึ่งพิจารณาจากฟังก์ชันข้อผิดพลาดของคุณ (เช่นข้อผิดพลาดกำลังสอง) และข้อ จำกัด อื่น ๆ (เช่นการลดน้ำหนัก) . คำถามหลักเมื่อตัดสินใจเลือกสิ่งเหล่านี้คือความเร็วที่คุณจะได้รับกับน้ำหนักที่ดี


'มันสามารถทำให้โมเดลนั้นง่ายขึ้นในการปรับให้เหมาะสมโดยทำให้ฟังก์ชั่นวัตถุประสงค์นูนขึ้น' - คุณช่วยอธิบายหน่อยได้ไหมว่าน้ำหนักที่เล็กลงทำให้สิ่งนี้เป็นไปได้หรือไม่?
อเล็กซ์

sin(x)ax2a

คำตอบที่ดีขอบคุณ เครื่องมือเพิ่มประสิทธิภาพอดัมล่ะ? มันทำงานได้ดีขึ้นหรือไม่ที่การรวมกันของการลดน้ำหนักและโมเมนตัม?
A. Piro

อาดัมเป็นเหมือนแรงผลักดัน แต่ไม่ชอบการลดน้ำหนัก มันส่งผลกระทบต่อวิธีที่คุณสำรวจฟังก์ชันวัตถุประสงค์ แต่ไม่ใช่หน้าที่วัตถุประสงค์
David J. Harris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.