ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville:
โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ
ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่
ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่?
นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?