ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพ ADAM เสมอไป

13

ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท

ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม

neural-network optimization

— PyRsquared
แหล่งที่มา

1

ฉันไม่เชื่อว่ามีวิธีใดที่เข้มงวดและเป็นทางการในการสนับสนุนทั้งสองข้อความ ทุกอย่างล้วนเป็นเชิงประจักษ์เนื่องจากไม่ทราบพื้นผิวของข้อผิดพลาด ตามกฎของหัวแม่มือและหมดจดจากประสบการณ์ม. อดัมไม่ดีที่คนอื่นล้มเหลว (เช่นการแบ่งส่วน) แม้ไม่ได้โดยไม่มีข้อบกพร่อง (ลู่ไม่ได้เป็นเสียงเดียว)

— อเล็กซ์

2

อดัมเร็วกว่าที่จะมาบรรจบกัน SGD ช้ากว่า แต่เห็นได้ชัดกว่า ดังนั้นในตอนท้ายมันทั้งหมดขึ้นอยู่กับสถานการณ์เฉพาะของคุณ

— agcala

13

นี่คือการโพสต์บล็อกการตรวจสอบบทความที่อ้างว่า SGD เป็นอะแดปเตอร์ทั่วไปที่ดีกว่า ADAM https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

มักจะมีค่าที่จะใช้มากกว่าหนึ่งวิธี (วงดนตรี) เพราะทุกวิธีมีจุดอ่อน

— คริสโตเฟอร์คลอส
แหล่งที่มา

5

คุณควรดูที่โพสต์นี้เปรียบเทียบตัวเพิ่มประสิทธิภาพการไล่ระดับสีที่แตกต่างกัน อย่างที่คุณเห็นด้านล่างอดัมไม่ใช่เครื่องมือเพิ่มประสิทธิภาพที่ดีที่สุดสำหรับงานบางอย่างที่ดีกว่า

เพียงเพื่อบันทึก: ในบทความที่เชื่อมโยงพวกเขาพูดถึงข้อบกพร่องบางส่วนของ ADAM และ AMSGrad ปัจจุบันเป็นวิธีแก้ปัญหา อย่างไรก็ตามพวกเขาสรุปว่า AMSGrad มีประสิทธิภาพเหนือกว่า ADAM ในทางปฏิบัติหรือไม่ (ณ เวลาที่เขียน) ไม่ใช่ข้อสรุป

— Lus