อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?


25

อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง

ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ


1
คุณหมายถึง LSTMs แบบเรียงซ้อนกันตามแนวนอน (ตามขั้นตอนเวลา) หรือคุณหมายถึงการเรียงซ้อนในแนวตั้ง (เซลล์ LSTM หลายเซลล์สำหรับแต่ละขั้นตอน)
59

คำตอบ:


18

ฉันคิดว่าคุณกำลังอ้างถึงเลเยอร์ LSTM ในแนวตั้ง (สมมติว่าแกนนอนเป็นแกนเวลา

ในกรณีนั้นเหตุผลหลักสำหรับการซ้อน LSTM คือการอนุญาตให้มีความซับซ้อนของโมเดลที่มากขึ้น ในกรณีของเครือข่าย feedforward แบบง่าย ๆ เราจะสร้างเลเยอร์เลเยอร์เพื่อสร้างคุณสมบัติลำดับชั้นของข้อมูลอินพุตเพื่อใช้สำหรับงานการเรียนรู้ของเครื่อง เช่นเดียวกับ LSTM ที่ซ้อนกัน

ในทุกขั้นตอนจะมี LSTM นอกเหนือจากอินพุตที่เกิดซ้ำ หากอินพุตนั้นเป็นผลลัพธ์จากเลเยอร์ LSTM (หรือเลเยอร์ feedforward) ดังนั้น LSTM ปัจจุบันสามารถสร้างการแสดงคุณสมบัติที่ซับซ้อนมากขึ้นของอินพุตปัจจุบัน

ตอนนี้ความแตกต่างระหว่างการมีฟีดเลเยอร์ไปข้างหน้าระหว่างฟีเจอร์อินพุตและเลเยอร์ LSTM และการมีเลเยอร์ LSTM อีกอันคือเลเยอร์ฟีดฟอร์เวิร์ด (พูดว่าเลเยอร์เชื่อมต่อเต็มที่) ไม่ได้รับการตอบรับจากขั้นตอนเวลาก่อนหน้า รูปแบบ การมี LSTM แทน (เช่นการใช้การแทน LSTM แบบซ้อน) สามารถอธิบายรูปแบบอินพุตที่ซับซ้อนได้ในทุกเลเยอร์


4
เซลล์ LSTM ภายในเลเยอร์นั้นเชื่อมต่อกันอย่างสมบูรณ์แล้วซึ่งกันและกัน (เอาต์พุตของเลเยอร์มีการเชื่อมต่อกับอินพุตทั้งหมดของเลเยอร์เดียวกัน) ดังนั้นแต่ละเซลล์สามารถรวมคุณสมบัติที่ด้านบนของผลลัพธ์ของเซลล์อื่น ๆ ทั้งหมดภายในหนึ่งชั้น คุณช่วยอธิบายรายละเอียดเกี่ยวกับสาเหตุที่หลายเลเยอร์ส่งผลให้มีรูปแบบที่ซับซ้อนมากขึ้นได้ไหม
danijar

6

จาก {1}:

ในขณะที่มันไม่ชัดเจนในทางทฤษฎีอะไรคือพลังเพิ่มเติมที่ได้รับจากสถาปัตยกรรมที่ลึกลงไป แต่ก็สังเกตได้ว่าสังเกตุว่า RNNs ทำงานได้ดีกว่างานที่ตื้นกว่าในบางงาน โดยเฉพาะอย่างยิ่ง Sutskever et al (2014) รายงานว่าสถาปัตยกรรมชั้นลึก 4 ชั้นมีความสำคัญอย่างยิ่งในการบรรลุประสิทธิภาพการแปลภาษาด้วยเครื่องที่ดีในกรอบตัวเข้ารหัส - ถอดรหัส Irsoy and Cardie (2014) ยังรายงานผลลัพธ์ที่ดีขึ้นจากการย้ายจาก BI-RNN แบบชั้นเดียวไปสู่สถาปัตยกรรมที่มีหลายเลเยอร์ รายงานผลงานอื่น ๆ อีกมากมายใช้สถาปัตยกรรม RNN แบบเลเยอร์ แต่อย่าเปรียบเทียบกับ RNN แบบ 1 เลเยอร์อย่างชัดเจน

FYI:


อ้างอิง:


2

จากการเล่นกับ LSTM สำหรับการจำแนกลำดับมันมีผลเช่นเดียวกับการเพิ่มกำลังการผลิตแบบจำลองใน CNNs (ถ้าคุณคุ้นเคยกับพวกเขา) ดังนั้นคุณจะได้รับผลกำไรแน่นอนโดยเฉพาะถ้าคุณทำ underfitting ข้อมูลของคุณ

แน่นอนว่าเพิ่มขึ้นสองเท่าในขณะที่คุณยังสามารถฟิตร่างกายและทำงานได้แย่ลง ในกรณีของฉันฉันไปจาก 1 LSTM เป็น 2 กองและได้รับการปรับปรุงอย่างรวดเร็วมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.