อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง
ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ
อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง
ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ
คำตอบ:
ฉันคิดว่าคุณกำลังอ้างถึงเลเยอร์ LSTM ในแนวตั้ง (สมมติว่าแกนนอนเป็นแกนเวลา
ในกรณีนั้นเหตุผลหลักสำหรับการซ้อน LSTM คือการอนุญาตให้มีความซับซ้อนของโมเดลที่มากขึ้น ในกรณีของเครือข่าย feedforward แบบง่าย ๆ เราจะสร้างเลเยอร์เลเยอร์เพื่อสร้างคุณสมบัติลำดับชั้นของข้อมูลอินพุตเพื่อใช้สำหรับงานการเรียนรู้ของเครื่อง เช่นเดียวกับ LSTM ที่ซ้อนกัน
ในทุกขั้นตอนจะมี LSTM นอกเหนือจากอินพุตที่เกิดซ้ำ หากอินพุตนั้นเป็นผลลัพธ์จากเลเยอร์ LSTM (หรือเลเยอร์ feedforward) ดังนั้น LSTM ปัจจุบันสามารถสร้างการแสดงคุณสมบัติที่ซับซ้อนมากขึ้นของอินพุตปัจจุบัน
ตอนนี้ความแตกต่างระหว่างการมีฟีดเลเยอร์ไปข้างหน้าระหว่างฟีเจอร์อินพุตและเลเยอร์ LSTM และการมีเลเยอร์ LSTM อีกอันคือเลเยอร์ฟีดฟอร์เวิร์ด (พูดว่าเลเยอร์เชื่อมต่อเต็มที่) ไม่ได้รับการตอบรับจากขั้นตอนเวลาก่อนหน้า รูปแบบ การมี LSTM แทน (เช่นการใช้การแทน LSTM แบบซ้อน) สามารถอธิบายรูปแบบอินพุตที่ซับซ้อนได้ในทุกเลเยอร์
จาก {1}:
ในขณะที่มันไม่ชัดเจนในทางทฤษฎีอะไรคือพลังเพิ่มเติมที่ได้รับจากสถาปัตยกรรมที่ลึกลงไป แต่ก็สังเกตได้ว่าสังเกตุว่า RNNs ทำงานได้ดีกว่างานที่ตื้นกว่าในบางงาน โดยเฉพาะอย่างยิ่ง Sutskever et al (2014) รายงานว่าสถาปัตยกรรมชั้นลึก 4 ชั้นมีความสำคัญอย่างยิ่งในการบรรลุประสิทธิภาพการแปลภาษาด้วยเครื่องที่ดีในกรอบตัวเข้ารหัส - ถอดรหัส Irsoy and Cardie (2014) ยังรายงานผลลัพธ์ที่ดีขึ้นจากการย้ายจาก BI-RNN แบบชั้นเดียวไปสู่สถาปัตยกรรมที่มีหลายเลเยอร์ รายงานผลงานอื่น ๆ อีกมากมายใช้สถาปัตยกรรม RNN แบบเลเยอร์ แต่อย่าเปรียบเทียบกับ RNN แบบ 1 เลเยอร์อย่างชัดเจน
FYI:
อ้างอิง:
จากการเล่นกับ LSTM สำหรับการจำแนกลำดับมันมีผลเช่นเดียวกับการเพิ่มกำลังการผลิตแบบจำลองใน CNNs (ถ้าคุณคุ้นเคยกับพวกเขา) ดังนั้นคุณจะได้รับผลกำไรแน่นอนโดยเฉพาะถ้าคุณทำ underfitting ข้อมูลของคุณ
แน่นอนว่าเพิ่มขึ้นสองเท่าในขณะที่คุณยังสามารถฟิตร่างกายและทำงานได้แย่ลง ในกรณีของฉันฉันไปจาก 1 LSTM เป็น 2 กองและได้รับการปรับปรุงอย่างรวดเร็วมาก