ทำไม RNNs กับหน่วย LSTM ยังทนทุกข์ทรมานจาก“ การไล่ระดับสีแบบระเบิด”

ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า

อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่

คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ

ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้

แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี

ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" แต่เห็นได้ชัดว่า RNNs กับหน่วย LSTM ประสบกับ "การไล่ระดับสีแบบกระจาย" ด้วยเช่นกัน

ทำไมจึงเป็นเช่นนั้น ศาสตร์อะไรคือเหตุผลอะไร

— nbro
แหล่งที่มา

คำตอบ:

คำตอบสั้น ๆ :

LSTM decouples สถานะของเซลล์ (โดยทั่วไปจะแทนด้วยc) และเลเยอร์ / เอาท์พุทที่ซ่อนอยู่ (โดยทั่วไปจะแทนด้วยh) และทำการอัปเดตเพิ่มเติมcเฉพาะซึ่งทำให้ความทรงจำcมีความเสถียรมากขึ้น ดังนั้นการไล่ระดับสีที่ไหลผ่านcจะถูกเก็บไว้และยากที่จะหายไป (ดังนั้นการไล่ระดับสีโดยรวมนั้นยากที่จะหายไป) อย่างไรก็ตามเส้นทางอื่นอาจทำให้เกิดการไล่ระดับสี

คำตอบที่ละเอียดยิ่งขึ้นพร้อมคำอธิบายทางคณิตศาสตร์:

มาทบทวนกลไก CEC (ค่าคงที่ข้อผิดพลาดแบบหมุน) ก่อน CEC กล่าวว่าจากขั้นตอนtไปจนถึงt+1ถ้าประตูลืมคือ 1 (ไม่มีประตูลืมในกระดาษ LSTM ดั้งเดิมซึ่งเป็นกรณีนี้เสมอ) การไล่ระดับสีสามารถไหลได้โดยไม่มีการเปลี่ยนแปลง ตามสูตร BPTT ในกระดาษLSTM: A Odyssey Search Spaceภาคผนวก A.2 ( ในบทความนี้อยู่ในวรรณกรรมอื่น ๆ ) การไหลของ CEC สอดคล้องกับสมการ1} เมื่อใกล้กับ 1,สะสมเป็นสูญเสีย $dl/dc^{t}$ yh $\delta c^t = \dots + \delta c^{t+1} \odot f^{t+1}$ $f^{t+1}$ $\delta c^{t+1}$ $\delta c^t$

อย่างไรก็ตาม LSTM เป็นมากกว่า CEC นอกเหนือจากเส้นทาง CEC จากถึงเส้นทางอื่น ๆ จะมีอยู่ระหว่างสองขั้นตอนเวลาติดกัน ยกตัวอย่างเช่น1} เดินผ่านกระบวนการแพร่กระจายด้านหลังใน 2 ขั้นตอนเรามี:เราเห็นถูกคูณสองครั้งบนเส้นทางนี้เช่นเดียวกับวานิลลา RNN ซึ่งอาจทำให้เกิดการไล่ระดับสีแบบไล่ระดับ ในทำนองเดียวกันเส้นทางผ่านเข้าและลืมประตูนอกจากนี้ยังมีความสามารถในการก่อให้เกิดการระเบิดลาดเนื่องจากตนเองคูณของเมทริกซ์R $c^{t}$ $c^{t+1}$ $y^t \rightarrow o^{t+1} \rightarrow y^{t+1}$ $\delta y^t \leftarrow R^T_o \delta o^{t+1} \leftarrow \delta y^{t+1} \leftarrow R^T_o \delta o^{t+2}$ $R^T_o$ $R^T_i, R^T_f, R^T_z$

อ้างอิง:

K. Greff, RK Srivastava, J. Koutn´ık, BR Steunebrink และ J.Schmidhuber LSTM: Odyssey ของพื้นที่การค้นหา CoRR, abs / 1503.04069, 2015

— soloice
แหล่งที่มา

คุณสามารถใส่การอ้างอิงแบบเต็มสำหรับกระดาษนั้นได้ไหม ลิงก์มักจะตาย

— mkt - Reinstate Monica

@mkt ขอบคุณสำหรับคำแนะนำของคุณ อันที่จริงนี่เป็นบทความที่มีชื่อเสียงมากและลิงก์ไปที่ arXiv ดังนั้นจึงไม่น่าจะตายฮ่า ๆ ~ แต่ให้ตรวจสอบเวอร์ชั่น v1 (เพราะเวอร์ชั่นปัจจุบัน v2 ไม่มีภาคผนวก)

— soloice

ขอขอบคุณที่เพิ่มไว้และรายละเอียดเกี่ยวกับภาคผนวก

— mkt - Reinstate Monica

คำตอบที่ดีฉันมักจะไม่แสดงความคิดเห็นเพื่อใส่ +1 แต่สิ่งนี้สมควรได้รับ การแสดงตัวอย่างจริงด้วยพีชคณิตเมทริกซ์ของเส้นทางที่ไม่เสถียรในเซลล์ LSTM จะเป็นการตอบรับ OP อย่างแน่นอน

— DeltaIV

RNNs ก่อน LSTM / GRU เคยไม่เสถียรเพราะสิ่งที่พวกเขาทำคือการเพิ่มจำนวนของสถานะซ่อนเร้นที่มีน้ำหนักบางส่วนสำหรับทุกเวลาซึ่งหมายความว่าเป็นการดำเนินการแบบเอ็กซ์โปเนนเชียล และอย่างที่เรารู้การยกกำลังนั้นไม่เสถียรมาก: เซลล์ LSTM / GRU แก้ปัญหานี้ได้โดยการคูณการเพิ่มเข้าไป คุณมีสถานะของเซลล์และแทนที่จะเพิ่มหรือลบคูณด้วย

{0.99}^{200} \approx 0.134

$0.99^{200} \approx 0.134$

1^{200} = 1

$1^{200} = 1$

{1.01}^{200} \approx 13

$1.01^{200} \approx 13$

อย่างไรก็ตามยังมีบางเส้นทางที่การไล่ระดับสีอาจไม่เสถียรและยิ่งใหญ่กว่าคือยิ่งมีโอกาสมากขึ้นที่คุณจะเจอกับปัญหานี้

— Lugi
แหล่งที่มา

เหตุใดจึงต้องตอบคำถามของฉัน ฉันต้องการทราบรายละเอียด

— nbro