เมื่อเร็ว ๆ นี้ฉันได้อ่านบทความโดย Yann Dauphin และคณะ การระบุและโจมตีปัญหาจุดอานในการเพิ่มประสิทธิภาพแบบ non-convex ในระดับสูงซึ่งพวกเขาแนะนำอัลกอริธึมที่น่าสนใจที่เรียกว่าSaddle-Free Newtonซึ่งดูเหมือนว่าจะเหมาะสำหรับการเพิ่มประสิทธิภาพเครือข่ายประสาทและไม่ควรติดอยู่ที่จุดอาน ชอบวิธีการสั่งซื้อครั้งแรกเช่นวานิลลา SGD
กระดาษวันที่กลับไปในปี 2014 ดังนั้นจึงไม่มีอะไรใหม่ แต่ฉันไม่ได้เห็นมันถูกใช้ "ในป่า" ทำไมไม่ใช้วิธีนี้? การคำนวณแบบ Hessian เป็นข้อห้ามเกินไปสำหรับปัญหา / เครือข่ายขนาดจริงหรือไม่? มีการใช้โอเพ่นซอร์สของอัลกอริทึมนี้หรือไม่และอาจใช้กับกรอบการเรียนรู้ที่สำคัญบางส่วนได้หรือไม่?
อัปเดต ก.พ. 2019:มีการติดตั้งใช้งานแล้ว: https://github.com/dave-fernandes/SaddleFreeOptimizer )