RMSProp และ Adam เทียบกับ SGD


12

ฉันกำลังทำการทดลองกับชุดตรวจสอบความถูกต้องของ EMNIST โดยใช้เครือข่ายที่มี RMSProp, อดัมและ SGD ฉันได้รับความแม่นยำ 87% กับ SGD (อัตราการเรียนรู้ 0.1) และ dropout (0.1 dropout prob) รวมถึงการทำให้เป็นมาตรฐาน L2 (การลงโทษ 1e-05) เมื่อทดสอบการกำหนดค่าที่แน่นอนเดียวกันกับ RMSProp และ Adam รวมถึงอัตราการเรียนรู้เริ่มต้น 0.001 ฉันได้รับความแม่นยำ 85% และเส้นโค้งการฝึกอบรมที่ราบรื่นน้อยลงอย่างเห็นได้ชัด ฉันไม่ทราบวิธีอธิบายพฤติกรรมนี้ อะไรเป็นสาเหตุของการขาดความเรียบในช่วงการฝึกอบรมและความแม่นยำที่ลดลงและอัตราความผิดพลาดที่สูงขึ้น


ขึ้นอยู่กับเครือข่าย คุณช่วยแสดงรายละเอียดเกี่ยวกับเครือข่ายให้เราได้ไหม คุณสามารถจัดเตรียมเส้นโค้งการเรียนรู้ได้หรือไม่
จดจำ

นี่คือเครือข่ายที่มี 5 เลเยอร์ (Dropout, Affine, ELU ในแต่ละเลเยอร์) ตั้งค่าได้ดังนี้: 150 มิติที่ซ่อนอยู่, เปิดใช้งานฟังก์ชั่น ELU, อัตราการเรียนรู้ 0.1 ดอลลาร์สิงคโปร์, 0.001 อัตราการเรียนรู้สำหรับ RMS และอดัม -05 จุดโทษ, ออกกลางคันด้วยความน่าจะเป็นที่ยกเว้น 0.1
Alk

และเมื่อคุณพูดว่า "การกำหนดค่าเดียวกันแน่นอน ... อัตราการเรียนรู้เริ่มต้นที่ 0.001" คุณหมายถึงคุณใช้อัตราการเรียนรู้ที่แตกต่างกันหรือคุณทำการทดลองสองครั้ง: หนึ่งค่าที่มีอัตราการเรียนรู้เท่ากันและอีกอันหนึ่ง อาจขึ้นอยู่กับซอฟต์แวร์จริงที่คุณใช้เป็นค่าเริ่มต้นของสิ่งที่พารามิเตอร์
Wayne

ดังนั้นฉันใช้ 0.1 สำหรับ SGD และ 0.001 สำหรับทั้ง Adam และ RMSProp นี่เป็นเพราะเมื่อฉันวิ่งอาดัมและ RMSProp ด้วยอัตราการเรียนรู้ 0.1 พวกเขาทั้งคู่ทำงานได้ไม่ดีด้วยความแม่นยำ 60% นอกจากนี้ 0.001 เป็นค่าที่แนะนำในกระดาษบนอดัม
Alk

คุณควรโพสต์เส้นโค้งการเรียนรู้และไม่ว่าคุณจะวัดข้อผิดพลาดในข้อมูลการทดสอบหรือการฝึกอบรม
Jakub Bartczuk

คำตอบ:


4

หลังจากศึกษาบทความออนไลน์และเอกสารประกอบของ Keras ขอแนะนำให้ใช้เครื่องมือเพิ่มประสิทธิภาพ RMSProp สำหรับเครือข่ายประสาทที่เกิดขึ้นอีก https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209

Stochastic Gradient Descent ดูเหมือนจะใช้ประโยชน์จากอัตราการเรียนรู้และโมเมนตัมระหว่างชุดแต่ละชุดเพื่อให้น้ำหนักของแบบจำลองเพิ่มขึ้นตามข้อมูลของฟังก์ชันการสูญเสียในกรณีของฉันคือ 'categorical_crossentropy'

ฉันขอแนะนำhttp://ruder.io/optimizing-gradient-descent/index.htmlสำหรับข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการเพิ่มประสิทธิภาพ


ฉันไม่แน่ใจว่าคุณหมายถึงอะไรโดย "แนะนำให้ใช้เครื่องมือเพิ่มประสิทธิภาพ RMSProp สำหรับเครือข่ายประสาทกำเริบ" ลิงค์ที่คุณใส่ตอนนี้เสียและไม่มีการกล่าวถึงว่าแนะนำไว้
Harshal Parekh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.