เมื่ออัปเดตน้ำหนักของเครือข่ายนิวรัลโดยใช้อัลกอริธึม backpropagation กับโมเมนตัมอัตราการเรียนรู้ควรถูกนำไปใช้กับเทอมโมเมนตัมเช่นกันหรือไม่?
ข้อมูลส่วนใหญ่ที่ฉันพบเกี่ยวกับการใช้โมเมนตัมมีสมการที่มีลักษณะดังนี้:
โดยที่คืออัตราการเรียนรู้และคือศัพท์โมเมนตัม
หากคำว่ามีขนาดใหญ่กว่าคำว่าดังนั้นในการทำซ้ำครั้งถัดไปจากการทำซ้ำครั้งก่อนหน้าจะมีผลต่อน้ำหนักมากกว่าที่เป็นอยู่ในปัจจุบัน
นี่คือจุดประสงค์ของคำว่าโมเมนตัมหรือไม่? หรือสมการควรมีลักษณะเช่นนี้มากกว่านี้หรือไม่
กล่าวคือ ปรับขนาดทุกอย่างตามอัตราการเรียนรู้?