ใช่มันเป็นเรื่องธรรมดามากที่จะใช้ทั้งสองอย่าง พวกเขาแก้ปัญหาต่าง ๆ และสามารถทำงานร่วมกันได้ดี
วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ก็คือการสลายตัวของน้ำหนักเปลี่ยนแปลงฟังก์ชั่นที่ถูกที่ดีที่สุดในขณะที่โมเมนตัมการเปลี่ยนแปลงเส้นทางที่คุณใช้เวลาในการที่เหมาะสม
น้ำหนักตัวลดลงโดยการลดค่าสัมประสิทธิ์ของคุณเป็นศูนย์เพื่อให้แน่ใจว่าคุณพบค่าที่เหมาะสมที่สุดในท้องถิ่นด้วยพารามิเตอร์ขนาดเล็ก สิ่งนี้มักจะเป็นสิ่งสำคัญสำหรับการหลีกเลี่ยงการ overfitting (แม้ว่าข้อ จำกัด อื่น ๆ เกี่ยวกับน้ำหนักก็สามารถใช้ได้เช่นกัน) นอกจากประโยชน์ด้านข้างแล้วมันยังสามารถทำให้แบบจำลองง่ายขึ้นเพื่อปรับให้เหมาะสมโดยการทำให้ฟังก์ชั่นวัตถุประสงค์นูนขึ้น
เมื่อคุณมีฟังก์ชั่นวัตถุประสงค์แล้วคุณต้องตัดสินใจว่าจะทำยังไง เชื้อสายที่ลาดชันที่สุดในการไล่ระดับสีเป็นวิธีที่ง่ายที่สุด แต่คุณพูดถูกที่ความผันผวนอาจเป็นปัญหาใหญ่ การเพิ่มโมเมนตัมช่วยแก้ปัญหานั้นได้ หากคุณกำลังทำงานกับการอัปเดตแบบกลุ่ม (ซึ่งมักเป็นแนวคิดที่ไม่ดีกับเครือข่ายประสาทเทียม) ขั้นตอนประเภทของนิวตันเป็นอีกทางเลือกหนึ่ง วิธีการ "ร้อน" แบบใหม่นั้นขึ้นอยู่กับการไล่ระดับสีแบบเร่งความเร็วของ Nesterov และการเพิ่มประสิทธิภาพแบบ "ปราศจาก Hessian"
แต่ไม่ว่ากฎการอัปเดตใดที่คุณใช้ (โมเมนตัมนิวตัน ฯลฯ ) คุณยังคงทำงานกับฟังก์ชันวัตถุประสงค์เดียวกันซึ่งพิจารณาจากฟังก์ชันข้อผิดพลาดของคุณ (เช่นข้อผิดพลาดกำลังสอง) และข้อ จำกัด อื่น ๆ (เช่นการลดน้ำหนัก) . คำถามหลักเมื่อตัดสินใจเลือกสิ่งเหล่านี้คือความเร็วที่คุณจะได้รับกับน้ำหนักที่ดี