หากคุณดูเอกสารประกอบhttp://keras.io/optimizers/จะมีพารามิเตอร์ในค่า SGD สำหรับการสลายตัว ฉันรู้ว่าสิ่งนี้ช่วยลดอัตราการเรียนรู้เมื่อเวลาผ่านไป อย่างไรก็ตามฉันไม่สามารถคิดออกว่ามันทำงานอย่างไร มันเป็นค่าที่คูณด้วยอัตราการเรียนรู้เช่นlr = lr * (1 - decay)
มันเป็นเลขชี้กำลังหรือไม่? ฉันจะดูได้อย่างไรว่าคะแนนการเรียนรู้ของฉันที่ใช้อยู่ เมื่อฉันพิมพ์model.optimizer.lr.get_value()
หลังจากทำงานพอดีกับช่วงเวลาสองสามครั้งมันจะให้อัตราการเรียนรู้ดั้งเดิมแม้ว่าฉันจะตั้งค่าการสลายตัว
ฉันต้องตั้งค่า nesterov = True เพื่อใช้โมเมนตัมหรือมีโมเมนตัมสองประเภทที่ฉันสามารถใช้ได้ ตัวอย่างเช่นมีประเด็นในการทำเช่นนี้sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
อ้างถึงจำนวนก้าวของแต่ละดอลล่าร์สิงคโปร์ไม่ใช่จำนวนยุค