ทำไม RNNs กับหน่วย LSTM ยังทนทุกข์ทรมานจาก“ การไล่ระดับสีแบบระเบิด”


13

ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า

อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่

คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ

ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้

แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี

ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" แต่เห็นได้ชัดว่า RNNs กับหน่วย LSTM ประสบกับ "การไล่ระดับสีแบบกระจาย" ด้วยเช่นกัน

ทำไมจึงเป็นเช่นนั้น ศาสตร์อะไรคือเหตุผลอะไร

คำตอบ:


12

คำตอบสั้น ๆ :

LSTM decouples สถานะของเซลล์ (โดยทั่วไปจะแทนด้วยc) และเลเยอร์ / เอาท์พุทที่ซ่อนอยู่ (โดยทั่วไปจะแทนด้วยh) และทำการอัปเดตเพิ่มเติมcเฉพาะซึ่งทำให้ความทรงจำcมีความเสถียรมากขึ้น ดังนั้นการไล่ระดับสีที่ไหลผ่านcจะถูกเก็บไว้และยากที่จะหายไป (ดังนั้นการไล่ระดับสีโดยรวมนั้นยากที่จะหายไป) อย่างไรก็ตามเส้นทางอื่นอาจทำให้เกิดการไล่ระดับสี


คำตอบที่ละเอียดยิ่งขึ้นพร้อมคำอธิบายทางคณิตศาสตร์:

มาทบทวนกลไก CEC (ค่าคงที่ข้อผิดพลาดแบบหมุน) ก่อน CEC กล่าวว่าจากขั้นตอนtไปจนถึงt+1ถ้าประตูลืมคือ 1 (ไม่มีประตูลืมในกระดาษ LSTM ดั้งเดิมซึ่งเป็นกรณีนี้เสมอ) การไล่ระดับสีสามารถไหลได้โดยไม่มีการเปลี่ยนแปลง ตามสูตร BPTT ในกระดาษLSTM: A Odyssey Search Spaceภาคผนวก A.2 ( ในบทความนี้อยู่ในวรรณกรรมอื่น ๆ ) การไหลของ CEC สอดคล้องกับสมการ1} เมื่อใกล้กับ 1,สะสมเป็นสูญเสียdl/dctyhδct=+δct+1ft+1ft+1δct+1δct

อย่างไรก็ตาม LSTM เป็นมากกว่า CEC นอกเหนือจากเส้นทาง CEC จากถึงเส้นทางอื่น ๆ จะมีอยู่ระหว่างสองขั้นตอนเวลาติดกัน ยกตัวอย่างเช่น1} เดินผ่านกระบวนการแพร่กระจายด้านหลังใน 2 ขั้นตอนเรามี:เราเห็นถูกคูณสองครั้งบนเส้นทางนี้เช่นเดียวกับวานิลลา RNN ซึ่งอาจทำให้เกิดการไล่ระดับสีแบบไล่ระดับ ในทำนองเดียวกันเส้นทางผ่านเข้าและลืมประตูนอกจากนี้ยังมีความสามารถในการก่อให้เกิดการระเบิดลาดเนื่องจากตนเองคูณของเมทริกซ์Rctct+1ytot+1yt+1δytRoTδot+1δyt+1RoTδot+2RoTRiT,RfT,RzT

อ้างอิง:

K. Greff, RK Srivastava, J. Koutn´ık, BR Steunebrink และ J.Schmidhuber LSTM: Odyssey ของพื้นที่การค้นหา CoRR, abs / 1503.04069, 2015


คุณสามารถใส่การอ้างอิงแบบเต็มสำหรับกระดาษนั้นได้ไหม ลิงก์มักจะตาย
mkt - Reinstate Monica

2
@mkt ขอบคุณสำหรับคำแนะนำของคุณ อันที่จริงนี่เป็นบทความที่มีชื่อเสียงมากและลิงก์ไปที่ arXiv ดังนั้นจึงไม่น่าจะตายฮ่า ๆ ~ แต่ให้ตรวจสอบเวอร์ชั่น v1 (เพราะเวอร์ชั่นปัจจุบัน v2 ไม่มีภาคผนวก)
soloice

ขอขอบคุณที่เพิ่มไว้และรายละเอียดเกี่ยวกับภาคผนวก
mkt - Reinstate Monica

คำตอบที่ดีฉันมักจะไม่แสดงความคิดเห็นเพื่อใส่ +1 แต่สิ่งนี้สมควรได้รับ การแสดงตัวอย่างจริงด้วยพีชคณิตเมทริกซ์ของเส้นทางที่ไม่เสถียรในเซลล์ LSTM จะเป็นการตอบรับ OP อย่างแน่นอน
DeltaIV

3

RNNs ก่อน LSTM / GRU เคยไม่เสถียรเพราะสิ่งที่พวกเขาทำคือการเพิ่มจำนวนของสถานะซ่อนเร้นที่มีน้ำหนักบางส่วนสำหรับทุกเวลาซึ่งหมายความว่าเป็นการดำเนินการแบบเอ็กซ์โปเนนเชียล และอย่างที่เรารู้การยกกำลังนั้นไม่เสถียรมาก: เซลล์ LSTM / GRU แก้ปัญหานี้ได้โดยการคูณการเพิ่มเข้าไป คุณมีสถานะของเซลล์และแทนที่จะเพิ่มหรือลบคูณด้วย

0.992000.134
1200=1
1.0120013

อย่างไรก็ตามยังมีบางเส้นทางที่การไล่ระดับสีอาจไม่เสถียรและยิ่งใหญ่กว่าคือยิ่งมีโอกาสมากขึ้นที่คุณจะเจอกับปัญหานี้


3
เหตุใดจึงต้องตอบคำถามของฉัน ฉันต้องการทราบรายละเอียด
nbro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.