การไล่ระดับสีที่หายไปนั้นอธิบายได้ดีที่สุดในเคสแบบหนึ่งมิติ หลายมิตินั้นซับซ้อนกว่า แต่คล้ายกันมาก คุณสามารถตรวจสอบได้ในเอกสารที่ยอดเยี่ยมนี้ [1]
สมมติว่าเรามีรัฐซ่อนในเวลาขั้นตอนทีหากเราทำให้สิ่งต่าง ๆ ง่ายขึ้นและลบอคติและอินพุตเรามี
จากนั้นคุณสามารถแสดงให้เห็นว่าhtt
ht=σ(wht−1).
∂ht′∂ht=∏k=1t′−twσ′(wht′−k)=wt′−t!!!∏k=1t′−tσ′(wht′−k)
เครื่องหมายที่ได้รับเครื่องหมายด้วย !!! เป็นสิ่งสำคัญอย่างหนึ่ง
ถ้าน้ำหนักไม่เท่ากับ 1 ก็อาจจะสลายตัวไปที่ศูนย์ชี้แจงอย่างรวดเร็วในt′−tหรือเติบโตชี้แจงได้อย่างรวดเร็ว
ใน LSTMs คุณมีรัฐถือs_tอนุพันธ์มีรูปแบบ
ที่นี่คืออินพุตไปยังเกทเกท อย่างที่คุณเห็นไม่มีปัจจัยการสลายตัวอย่างรวดเร็วที่เกี่ยวข้อง ดังนั้นจึงมีเส้นทางอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป สำหรับการสืบทอดทั้งหมดดู [2]st
∂st′∂st=∏k=1t′−tσ(vt+k).
vt
[1] Pascanu, Razvan, Tomas Mikolov และ Yoshua Bengio "ในความยากลำบากของการฝึกอบรมเครือข่ายประสาทกำเริบ" ICML (3) 28 (2013): 1310-1318
[2] ไบเออร์, จัสตินไซม่อน การเรียนรู้การเป็นตัวแทนลำดับ Diss München, Technische UniversitätMünchen, Diss., 2015, 2015