ฉันสงสัยว่าในสถานการณ์ใดที่เป็นประโยชน์ในการสแต็ก LSTM
ฉันสงสัยว่าในสถานการณ์ใดที่เป็นประโยชน์ในการสแต็ก LSTM
คำตอบ:
จากข้อดีของการซ้อน LSTM หลายรายการคืออะไร (ฉันจะอัปเดตคำตอบที่นั่นเท่านั้น):
จาก {1}:
ในขณะที่มันไม่ชัดเจนในทางทฤษฎีอะไรคือพลังเพิ่มเติมที่ได้รับจากสถาปัตยกรรมที่ลึกลงไป แต่ก็สังเกตได้ว่าสังเกตุ RNNs ทำงานได้ดีกว่างานที่ตื้นกว่าในบางงาน โดยเฉพาะอย่างยิ่ง Sutskever et al (2014) รายงานว่าสถาปัตยกรรมเชิงลึก 4 ชั้นมีความสำคัญอย่างยิ่งในการบรรลุประสิทธิภาพการแปลภาษาด้วยเครื่องที่ดีในกรอบตัวเข้ารหัส - ถอดรหัส Irsoy and Cardie (2014) ยังรายงานผลลัพธ์ที่ดีขึ้นจากการย้ายจาก BI-RNN แบบชั้นเดียวไปสู่สถาปัตยกรรมที่มีหลายเลเยอร์ รายงานผลงานอื่น ๆ อีกมากมายใช้สถาปัตยกรรม RNN แบบเลเยอร์ แต่อย่าเปรียบเทียบกับ RNN แบบ 1 เลเยอร์อย่างชัดเจน
อ้างอิง:
- {1} Goldberg, Yoav "ความรู้เบื้องต้นเกี่ยวกับแบบจำลองโครงข่ายประสาทเทียมสำหรับการประมวลผลภาษาธรรมชาติ" J. Artif Intell Res. (JAIR) 57 (2016): 345-420 https://scholar.google.com/scholar?cluster=3704132192758179278&hl=th&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf
สถานการณ์หนึ่งที่มีประโยชน์ในการสแต็ก LSTM คือเมื่อเราต้องการเรียนรู้การแสดงแบบลำดับชั้นของข้อมูลอนุกรมเวลาของเรา ใน LSTM แบบสแต็กแต่ละเลเยอร์ LSTM เอาต์พุตลำดับของเวกเตอร์ซึ่งจะใช้เป็นอินพุตไปยังเลเยอร์ LSTM ที่ตามมา ลำดับชั้นของเลเยอร์ที่ซ่อนอยู่นี้ช่วยให้การแสดงข้อมูลอนุกรมเวลาของเรามีความซับซ้อนยิ่งขึ้นรวบรวมข้อมูลในระดับต่างๆ
ตัวอย่างเช่น LSTM แบบเรียงซ้อนสามารถใช้เพื่อปรับปรุงความแม่นยำในการจัดหมวดหมู่อนุกรมเวลาเช่นการทำนายกิจกรรมซึ่งสามารถใช้อัตราการเต้นของหัวใจการนับขั้นตอน GPS และสัญญาณอื่น ๆ เพื่อทำนายกิจกรรมเช่นการเดินการวิ่งการขี่จักรยาน ปีนบันไดหรือพักผ่อน ตัวอย่างของการจำแนกอนุกรมเวลากับ LSTMs ซ้อนกันโดยใช้ข้อมูล EEG มีลักษณะที่ดังต่อไปipython โน๊ตบุ๊ค
ตามลำดับตัวแบบลำดับ: งานของเครือข่ายตัวเข้ารหัสคือการอ่านลำดับของแบบจำลอง Seq2Seq ของเราและสร้างเวกเตอร์บริบท C แบบคงที่สำหรับลำดับ ในการทำเช่นนั้นเครื่องเข้ารหัสจะใช้เซลล์เครือข่ายประสาทกำเริบ - โดยทั่วไปคือ LSTM - เพื่ออ่านโทเค็นอินพุตหนึ่งครั้ง รัฐที่ซ่อนอยู่ในขั้นสุดท้ายของเซลล์แล้วจะกลายเป็นซี แต่เพราะมันเป็นเรื่องยากมากในการบีบอัดลำดับโดยพลการที่มีความยาวในที่เดียวเวกเตอร์ขนาดคงที่ (โดยเฉพาะอย่างยิ่งสำหรับงานที่ยากลำบากเช่นการแปล), encoder มักจะประกอบด้วยLSTMs ซ้อนกัน : ชุดของ "เลเยอร์" LSTM ที่เอาต์พุตของแต่ละเลเยอร์คือลำดับการป้อนข้อมูลไปยังเลเยอร์ถัดไป สถานะที่ซ่อนของเลเยอร์สุดท้ายของ LSTM จะถูกใช้เป็นเวกเตอร์บริบท