ทำไม RNNs กับหน่วย LSTM ยังทนทุกข์ทรมานจาก“ การไล่ระดับสีแบบระเบิด”
ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่ คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้ แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" …