ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า
อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่
คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ
ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้
แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี
ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" แต่เห็นได้ชัดว่า RNNs กับหน่วย LSTM ประสบกับ "การไล่ระดับสีแบบกระจาย" ด้วยเช่นกัน
ทำไมจึงเป็นเช่นนั้น ศาสตร์อะไรคือเหตุผลอะไร