LSTM, BiLSTM คืออะไรและใช้เมื่อใด?


11

ฉันยังใหม่ต่อการเรียนรู้เชิงลึกและฉันสนใจที่จะรู้ว่า LSTM และ BiLSTM คืออะไรและควรใช้เมื่อใด (พื้นที่ใช้งานหลัก) เหตุใด LSTM และ BILSTM จึงได้รับความนิยมมากกว่า RNN

เราสามารถใช้สถาปัตยกรรมการเรียนรู้ลึกเหล่านี้ในปัญหาที่ไม่มีผู้ดูแลได้หรือไม่?


2
BiLSTM หมายถึง LSTM สองทิศทางซึ่งหมายความว่าสัญญาณแพร่กระจายไปข้างหลังและข้างหน้าในเวลา คุณยังสามารถใช้สถาปัตยกรรมนี้กับ RNN อื่น ๆ สำหรับรายละเอียดโปรดอ่านen.wikipedia.org/wiki/Bidirectional_recurrent_neural_networksและcolah.github.io/posts/2015-08- เข้าใจง่าย - LSTM ยินดีต้อนรับสู่เว็บไซต์!
Emre

นี่คือโพสต์ความแตกต่างระหว่าง RNN และ LSTM และนี่คือบล็อกเพื่อแสดงให้เห็นถึงความแตกต่างระหว่าง LSTM และ Bidirectional-LTSM
Benyamin Jafari

คำตอบ:


7

RNNสถาปัตยกรรมที่ชอบLSTMและBiLSTMถูกนำมาใช้ในโอกาสที่ปัญหาการเรียนรู้เป็นลำดับเช่นคุณมีวิดีโอและคุณต้องการที่จะรู้ว่าอะไรคือสิ่งที่เกี่ยวกับหรือคุณต้องการให้ตัวแทนอ่านบรรทัดของเอกสารสำหรับคุณซึ่งเป็นภาพของข้อความและ ไม่ได้อยู่ในรูปแบบข้อความ ผมขอแนะนำให้คุณลองดูที่นี่

LSTMsและตัวแปรสองทิศทางของพวกเขาเป็นที่นิยมเพราะพวกเขาพยายามที่จะเรียนรู้วิธีและเวลาที่จะลืมและเมื่อไม่ใช้ประตูในสถาปัตยกรรมของพวกเขา ในRNNสถาปัตยกรรมก่อนหน้าการหายไปของการไล่ระดับสีเป็นปัญหาใหญ่และทำให้อวนเหล่านั้นไม่ต้องเรียนรู้มากนัก

โดยใช้แบบสองทิศทางLSTMs, คุณฟีดขั้นตอนวิธีการเรียนรู้ที่มีข้อมูลต้นฉบับครั้งเดียวตั้งแต่ต้นจนจบและเมื่อออกมาจากปลายที่จุดเริ่มต้น มีการโต้วาทีที่นี่ แต่โดยปกติแล้วจะเรียนรู้ได้เร็วกว่าวิธีหนึ่งทิศทางแม้ว่ามันจะขึ้นอยู่กับงาน

ใช่คุณสามารถใช้พวกเขาในการเรียนรู้ใกล้ชิดเกินไปทั้งนี้ขึ้นอยู่กับงานของคุณ มาดูที่นี่และที่นี่


1
ขอบคุณมากสำหรับคำตอบที่ยอดเยี่ยม เราสามารถใช้ lstm สำหรับการแยกคำหลักใน NLP ได้หรือไม่?
Volka

จริงมีจำนวนมากของเอกสารเกี่ยวกับพวกเขาเช่นคุณสามารถดูที่นี่และที่นี่
สื่อ

ขอบคุณมาก. ฉันเพียงแค่สงสัยว่าถ้ามีปิด -the-shelf สกัดคำหลักวิธีลึกการเรียนรู้ที่เราสามารถใช้?
Volka

ที่จริงผมไม่ได้เห็นอาจจะดีกว่าที่จะถามมัน :)
สื่อ

4

มนุษย์ไม่เริ่มคิดตั้งแต่เริ่มทุกวินาที ขณะที่คุณอ่านบทความนี้คุณเข้าใจแต่ละคำตามความเข้าใจของคำก่อนหน้า คุณไม่โยนทุกอย่างออกไปและเริ่มคิดตั้งแต่เริ่มต้นอีกครั้ง ความคิดของคุณมีความเพียร

เครือข่ายประสาทแบบดั้งเดิมไม่สามารถทำได้และดูเหมือนว่าจะเป็นข้อบกพร่องที่สำคัญ ตัวอย่างเช่นสมมติว่าคุณต้องการจัดประเภทของเหตุการณ์ที่เกิดขึ้นในทุกจุดในภาพยนตร์ มันไม่ชัดเจนว่าเครือข่ายประสาทแบบดั้งเดิมสามารถใช้เหตุผลเกี่ยวกับเหตุการณ์ก่อนหน้านี้ในภาพยนตร์เพื่อแจ้งให้ทราบในภายหลัง

เครือข่ายประสาทที่เกิดขึ้นอยู่แก้ไขปัญหานี้ พวกเขาเป็นเครือข่ายที่มีการวนซ้ำในพวกเขาช่วยให้ข้อมูลยังคงอยู่

เพื่ออ่านเพิ่มเติมไปนี้เพื่อ บล็อกโคเฮน


2

ในการเปรียบเทียบกับ LSTM BLSTMหรือBiLSTMมีสองเครือข่ายหนึ่งเข้าถึงpastข้อมูลในforwardทิศทางและการเข้าถึงอื่นfutureในreverseทิศทาง วิกิพีเดีย

มีการเพิ่มคลาสใหม่Bidirectionalตามเอกสารอย่างเป็นทางการที่นี่ :

model = Sequential()
model.add(Bidirectional(LSTM(num_channels, 
        implementation = 2, recurrent_activation = 'sigmoid'),
        input_shape=(input_length, input_dim)))

ตัวอย่างที่สมบูรณ์โดยใช้ข้อมูล IMDB จะเป็นเช่นนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.