ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท
ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม
1
ฉันไม่เชื่อว่ามีวิธีใดที่เข้มงวดและเป็นทางการในการสนับสนุนทั้งสองข้อความ ทุกอย่างล้วนเป็นเชิงประจักษ์เนื่องจากไม่ทราบพื้นผิวของข้อผิดพลาด ตามกฎของหัวแม่มือและหมดจดจากประสบการณ์ม. อดัมไม่ดีที่คนอื่นล้มเหลว (เช่นการแบ่งส่วน) แม้ไม่ได้โดยไม่มีข้อบกพร่อง (ลู่ไม่ได้เป็นเสียงเดียว)
—
อเล็กซ์
อดัมเร็วกว่าที่จะมาบรรจบกัน SGD ช้ากว่า แต่เห็นได้ชัดกว่า ดังนั้นในตอนท้ายมันทั้งหมดขึ้นอยู่กับสถานการณ์เฉพาะของคุณ
—
agcala