ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพ ADAM เสมอไป


13

ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท

ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม


1
ฉันไม่เชื่อว่ามีวิธีใดที่เข้มงวดและเป็นทางการในการสนับสนุนทั้งสองข้อความ ทุกอย่างล้วนเป็นเชิงประจักษ์เนื่องจากไม่ทราบพื้นผิวของข้อผิดพลาด ตามกฎของหัวแม่มือและหมดจดจากประสบการณ์ม. อดัมไม่ดีที่คนอื่นล้มเหลว (เช่นการแบ่งส่วน) แม้ไม่ได้โดยไม่มีข้อบกพร่อง (ลู่ไม่ได้เป็นเสียงเดียว)
อเล็กซ์

2
อดัมเร็วกว่าที่จะมาบรรจบกัน SGD ช้ากว่า แต่เห็นได้ชัดกว่า ดังนั้นในตอนท้ายมันทั้งหมดขึ้นอยู่กับสถานการณ์เฉพาะของคุณ
agcala

คำตอบ:


13

นี่คือการโพสต์บล็อกการตรวจสอบบทความที่อ้างว่า SGD เป็นอะแดปเตอร์ทั่วไปที่ดีกว่า ADAM https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

มักจะมีค่าที่จะใช้มากกว่าหนึ่งวิธี (วงดนตรี) เพราะทุกวิธีมีจุดอ่อน


5

คุณควรดูที่โพสต์นี้เปรียบเทียบตัวเพิ่มประสิทธิภาพการไล่ระดับสีที่แตกต่างกัน อย่างที่คุณเห็นด้านล่างอดัมไม่ใช่เครื่องมือเพิ่มประสิทธิภาพที่ดีที่สุดสำหรับงานบางอย่างที่ดีกว่า


เพียงเพื่อบันทึก: ในบทความที่เชื่อมโยงพวกเขาพูดถึงข้อบกพร่องบางส่วนของ ADAM และ AMSGrad ปัจจุบันเป็นวิธีแก้ปัญหา อย่างไรก็ตามพวกเขาสรุปว่า AMSGrad มีประสิทธิภาพเหนือกว่า ADAM ในทางปฏิบัติหรือไม่ (ณ เวลาที่เขียน) ไม่ใช่ข้อสรุป
Lus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.