ความแตกต่างระหว่างข้อเสนอแนะ RNN และ LSTM / GRU


20

ฉันกำลังพยายามที่จะเข้าใจโครงสร้างเครือข่ายนิวรัล (RNN) ที่แตกต่างกันเพื่อนำไปใช้กับข้อมูลอนุกรมเวลาและฉันสับสนเล็กน้อยกับชื่อต่าง ๆ ที่ใช้บ่อยเมื่ออธิบาย RNN โครงสร้างของหน่วยความจำระยะสั้นระยะยาว (LSTM) และ Gated Recurrent Unit (GRU) นั้นเป็น RNN ที่มีลูปข้อเสนอแนะหรือไม่?


2
โปรดสะกดคำย่อของคุณ
gung - Reinstate Monica

คำตอบ:


34

RNN ทั้งหมดมีลูปข้อเสนอแนะในเลเยอร์ที่เกิดซ้ำ ซึ่งช่วยให้พวกเขารักษาข้อมูลใน 'หน่วยความจำ' เมื่อเวลาผ่านไป แต่มันอาจเป็นเรื่องยากที่จะฝึก RNN มาตรฐานเพื่อแก้ปัญหาที่ต้องเรียนรู้การพึ่งพาชั่วคราวในระยะยาว นี่เป็นเพราะการไล่ระดับสีของฟังก์ชั่นการสูญเสียลดลงอย่างทวีคูณด้วยเวลา (เรียกว่าปัญหาการไล่ระดับสีที่หายไป) เครือข่าย LSTM เป็นประเภทของ RNN ที่ใช้หน่วยพิเศษนอกเหนือจากหน่วยมาตรฐาน หน่วย LSTM ประกอบด้วย 'เซลล์หน่วยความจำ' ที่สามารถเก็บข้อมูลในหน่วยความจำได้เป็นระยะเวลานาน ชุดของประตูถูกใช้เพื่อควบคุมเมื่อข้อมูลเข้าสู่หน่วยความจำเมื่อมันถูกส่งออกและเมื่อมันถูกลืม สถาปัตยกรรมนี้ช่วยให้พวกเขาเรียนรู้การพึ่งพาในระยะยาว GRU นั้นคล้ายกับ LSTM แต่ใช้โครงสร้างที่เรียบง่าย

บทความนี้ให้ภาพรวมที่ดี:

Chung และคณะ (2014) การประเมินเชิงประจักษ์ของโครงข่ายประสาทเทียมที่เกิดขึ้นซ้ำในการสร้างแบบจำลองลำดับ


5

RNN มาตรฐาน (เครือข่ายประสาทกำเริบ) ประสบปัญหาจากการหายตัวไปและเกิดปัญหาการไล่ระดับสี LSTMs (หน่วยความจำระยะสั้นระยะยาว) จัดการกับปัญหาเหล่านี้โดยการแนะนำประตูใหม่เช่นอินพุตและลืมประตูซึ่งช่วยให้สามารถควบคุมการไหลของการไล่ระดับสีได้ดีขึ้นและเปิดใช้งานการเก็บรักษา


2

LSTM มักถูกเรียกว่าแฟนซี RNN Vanilla RNNs ไม่มีสถานะของเซลล์ พวกเขามีสถานะซ่อนเร้นเท่านั้นและสถานะซ่อนเร้นเหล่านั้นทำหน้าที่เป็นหน่วยความจำสำหรับ RNNs

ในขณะเดียวกัน LSTM มีทั้งสถานะเซลล์และสถานะซ่อนเร้น สถานะเซลล์มีความสามารถในการลบหรือเพิ่มข้อมูลไปยังเซลล์ควบคุมโดย "ประตู" และด้วยเหตุนี้ "เซลล์" ในทางทฤษฎี LSTM น่าจะสามารถรับมือกับการพึ่งพาระยะยาวได้ (ในทางปฏิบัติมันยากที่จะทำเช่นนั้น)


-1

TL; DR

เราสามารถพูดได้ว่าเมื่อเราย้ายจาก RNN เป็น LSTM (หน่วยความจำระยะสั้นแบบยาว) เราแนะนำปุ่มควบคุมที่มากขึ้นและมากขึ้นซึ่งควบคุมการไหลและการผสมของอินพุตตามน้ำหนักที่ผ่านการฝึกอบรม ทำให้มีความยืดหยุ่นในการควบคุมผลผลิต ดังนั้น LSTM ให้ความสามารถในการควบคุมมากที่สุดและผลลัพธ์ที่ดีกว่า แต่ยังมาพร้อมกับความซับซ้อนและค่าใช้จ่ายในการดำเนินงาน

การอ้างอิง


[ หมายเหตุ ]:

LSTM เป็น GRU เวอร์ชันเพิ่มเติม


ภาพนี้แสดงให้เห็นถึงความแตกต่างระหว่างพวกเขา:

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.