วิธีการเพิ่มประสิทธิภาพใดดีที่สุดสำหรับ LSTM

20

ฉันใช้ theano เพื่อทดสอบกับ LSTM และสงสัยว่าวิธีการเพิ่มประสิทธิภาพใด (SGD, Adagrad, Adadelta, RMSprop, Adam และอื่น ๆ ) ทำงานได้ดีที่สุดสำหรับ LSTMs หรือไม่ มีบทความวิจัยในหัวข้อนี้หรือไม่?

นอกจากนี้คำตอบยังขึ้นอยู่กับประเภทของแอปพลิเคชันที่ฉันใช้ LSTM ด้วยหรือไม่ ถ้าเป็นเช่นนั้นฉันใช้ LSTM สำหรับการจำแนกข้อความ (โดยที่ข้อความถูกแปลงเป็นคำเวกเตอร์)

ในที่สุดคำตอบจะเหมือนหรือแตกต่างกันสำหรับ RNNs หรือไม่ พอยน์เตอร์ใด ๆ สำหรับงานวิจัยหรือความเข้าใจส่วนบุคคลจะได้รับการชื่นชมอย่างมาก!

LSTM ดูเหมือนจะทรงพลังมากและฉันสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้งานให้ดีที่สุด

— แอปเปิ้ลไซเดอร์
แหล่งที่มา

7

แดกดันเพิ่มประสิทธิภาพที่ดีที่สุดสำหรับตัวเอง LSTMs LSTMs: https://arxiv.org/abs/1606.04474 เรียนรู้ที่จะเรียนรู้โดยการไล่ระดับสีโคตรโดยสายเลือดลาด

แนวคิดพื้นฐานคือการใช้เครือข่ายประสาท (โดยเฉพาะที่นี่เครือข่าย LSTM) เพื่อร่วมเรียนรู้และสอนการไล่ระดับสีของเครือข่ายเดิม มันเรียกว่าการเรียนรู้เมตา

วิธีนี้ในขณะที่ Juergen Schmidhuber เสนอในปี 2000 นั้นได้แสดงให้เห็นเมื่อไม่นานมานี้เพื่อให้ได้ประสิทธิภาพสูงสุดในการฝึกอบรม RNN (ดูกระดาษต้นฉบับสำหรับกราฟิกที่ดี)

— Anona112
แหล่งที่มา

คุณสามารถขยายโดยบอกเราว่าลิงก์บอกว่าอะไร

— mdewey

แก้ไขเพื่อความสุขของคุณ เนื่องจากคำถามเดิมคือ "วิธีการเพิ่มประสิทธิภาพแบบใดที่ดีที่สุดสำหรับ LSTM" ไม่ใช่ "วิธีการปรับให้เหมาะสมที่ดีที่สุดสำหรับ LSTM ทำงานอย่างไร" ฉันปล่อยให้เป็นเช่นนั้น

— Anona112

4

โดยทั่วไปไม่มีหลักฐานที่ชัดเจนว่าวิธีการปรับให้เหมาะสมที่จะใช้ในสถานการณ์ใด มีการวิเคราะห์พฤติกรรมของวิธีการเหล่านี้ภายใต้สถานการณ์ต่าง ๆ แต่ก็ไม่มีข้อสรุปใด ๆ หากคุณต้องการดำน้ำในสิ่งนี้ฉันขอแนะนำ: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

เพื่อที่จะให้คำตอบอย่างน้อยฉันก็ขอยืนยันว่าบ่อยครั้งที่การกำหนดค่ารูทีนการเพิ่มประสิทธิภาพของคุณมีความสำคัญมากกว่ารูทีนจริง

ยิ่งกว่านั้นฉันขอแนะนำให้คุณตรวจสอบเอกสารเพื่อดูว่ามีการใช้เทคนิคใด ตัวอย่างจากอเล็กซ์เกรฟส์ใช้ประโยชน์ RMSprop ตลอดทั้งสิ่งพิมพ์ของเขาในการสร้างลำดับ

— Sjoerd
แหล่งที่มา