สถิติและข้อมูลขนาดใหญ่ lstm

2

ทำไม RNNs กับหน่วย LSTM ยังทนทุกข์ทรมานจาก“ การไล่ระดับสีแบบระเบิด”

ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่ คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้ แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" …

13 neural-networks lstm rnn backpropagation

2

การจัดการคำที่ไม่รู้จักในงานสร้างแบบจำลองภาษาโดยใช้ LSTM

สำหรับภารกิจการประมวลผลภาษาธรรมชาติ (NLP) มักใช้เวกเตอร์ word2vecเพื่อฝังคำ อย่างไรก็ตามอาจมีคำที่ไม่รู้จักจำนวนมากที่ไม่ได้ถูกจับโดย word2vec vector เพียงเพราะคำเหล่านี้ไม่ได้เห็นบ่อยในข้อมูลการฝึกอบรม (การใช้งานจำนวนมากใช้การนับขั้นต่ำก่อนเพิ่มคำลงในคำศัพท์) นี่อาจเป็นกรณีที่มีข้อความจากเช่น Twitter ซึ่งคำมักสะกดผิด ควรจัดการคำที่ไม่รู้จักเช่นนั้นอย่างไรเมื่อสร้างแบบจำลองงาน NLP เช่นการคาดการณ์ความเชื่อมั่นโดยใช้เครือข่ายระยะสั้นระยะยาว (LSTM) ฉันเห็นสองตัวเลือก: การเพิ่มโทเค็น 'คำที่ไม่รู้จัก' ในพจนานุกรม word2vec การลบคำที่ไม่รู้จักเหล่านี้ออกไปเพื่อที่ LSTM จะไม่รู้แม้แต่คำนั้นในประโยค วิธีที่เหมาะสมในการจัดการคำเหล่านี้คืออะไร?

11 natural-language word2vec lstm word-embeddings

1

การทำนายอนุกรมเวลาโดยใช้ ARIMA กับ LSTM

ปัญหาที่ฉันจัดการคือการทำนายค่าอนุกรมเวลา ฉันกำลังดูซีรีส์ครั้งเดียวในแต่ละครั้งและตามตัวอย่างเช่น 15% ของข้อมูลอินพุตฉันต้องการทำนายค่าในอนาคต จนถึงตอนนี้ฉันเจอสองรุ่น: LSTM (หน่วยความจำระยะสั้นระยะยาวคลาสของเครือข่ายประสาทที่เกิดขึ้นอีก) ARIMA ฉันลองทั้งสองและอ่านบทความเกี่ยวกับพวกเขา ตอนนี้ฉันพยายามทำความเข้าใจให้ดีขึ้นเกี่ยวกับวิธีเปรียบเทียบทั้งสอง สิ่งที่ฉันได้พบจนถึง: LSTM ทำงานได้ดีขึ้นถ้าเราจัดการกับข้อมูลจำนวนมากและมีข้อมูลการฝึกอบรมเพียงพอในขณะที่ ARIMA จะดีกว่าสำหรับชุดข้อมูลขนาดเล็ก (ถูกต้องหรือไม่?) ARIMA ต้องการชุดพารามิเตอร์(p,q,d)ที่ต้องคำนวณตามข้อมูลในขณะที่ LSTM ไม่ต้องการตั้งค่าพารามิเตอร์ดังกล่าว อย่างไรก็ตามมีพารามิเตอร์หลายอย่างที่เราต้องปรับแต่งสำหรับ LSTM นอกเหนือจากคุณสมบัติที่กล่าวถึงข้างต้นฉันไม่สามารถหาจุดหรือข้อเท็จจริงอื่นใดที่จะช่วยให้ฉันเลือกโมเดลที่ดีที่สุดได้ ฉันจะขอบคุณจริง ๆ ถ้ามีคนช่วยฉันค้นหาบทความเอกสารหรือสิ่งอื่น ๆ (ไม่มีโชคจนถึงตอนนี้มีเพียงความคิดเห็นทั่วไปบางส่วนที่นี่และที่นั่นและไม่มีอะไรจากการทดลอง) ฉันต้องพูดถึงว่าตอนแรกฉันจัดการกับข้อมูลสตรีมมิ่ง แต่ตอนนี้ฉันกำลังใช้ชุดข้อมูล NABซึ่งรวมถึง 50 ชุดข้อมูลที่มีขนาดสูงสุด 20k จุดข้อมูล

10 time-series forecasting references arima lstm

3

โครงสร้างของโครงข่ายประสาทเทียม (LSTM, GRU)

ฉันพยายามที่จะเข้าใจสถาปัตยกรรมของ RNNs ฉันพบบทช่วยสอนนี้ซึ่งมีประโยชน์มาก: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ โดยเฉพาะภาพนี้: สิ่งนี้เหมาะสมกับเครือข่าย feed-forward หรือไม่? ภาพนี้เป็นเพียงโหนดอื่นในแต่ละเลเยอร์หรือไม่

10 neural-networks lstm

1

ทำความเข้าใจกับโทโพโลยีของ LSTM

อย่างที่หลายคนมีฉันพบแหล่งข้อมูลที่นี่และที่นี่เพื่อเป็นประโยชน์อย่างมากสำหรับการทำความเข้าใจเซลล์ LSTM ฉันมั่นใจว่าฉันเข้าใจว่าการไหลของค่าและการปรับปรุงและฉันมั่นใจมากพอที่จะเพิ่ม "การเชื่อมต่อช่องมอง" ฯลฯ ในตัวอย่างของฉันฉันมีที่ในแต่ละครั้งขั้นตอนการป้อนข้อมูลเวกเตอร์ของความยาวiและเวกเตอร์การส่งออกของระยะเวลาที่oo < i สิ่งที่ไม่ได้กล่าวถึงในหน้านี้คือวิธีการจัดเรียงและฝึกอบรม ฉันมีคำถาม 2 ข้อ: ในข้อมูลการฝึกอบรมของฉันฉันมีเวกเตอร์อินพุต / เอาต์พุตจำนวนมากที่สอดคล้องกับหน่วยเวลาจำนวนมาก สมมติว่าฉันฝึก LSTM ด้วยข้อมูลทั้งหมด จากนั้นฉันจะเรียกใช้อินพุตที่กำหนดเองแบบยาว ๆ สิ่งที่ฉันหมายถึงคือถ้าฉันมีข้อมูลการฝึกอบรมสำหรับพูดทั้งหมดของปี 2558 และ 2559 ฉันจะสามารถเรียกใช้ข้อมูลผ่านเครือข่ายในปี 2560 ได้หรือไม่? หรืออาจ 2017 ถึง 2020 ตามที่ฉันได้อ่านมันรู้สึกเหมือนฉันมีเซลล์ LSTM หนึ่งเซลล์ต่อหน่วยเวลาดังนั้นถ้าฉันมีหน่วยเวลาหลายครั้งฉันก็มีเซลล์ LSTM ที่ถูกล่ามโซ่ไว้มากมาย เนื่องจากความยาวของสายโซ่นั้นขึ้นอยู่กับความยาวของข้อมูลที่ฉันต้องการเรียกใช้ผ่านเครือข่ายและนั่นเป็นเรื่องที่คาดเดาได้ยากฉันไม่สามารถเห็นได้ว่าฉันจะฝึกอบรมเรื่องนี้อย่างไรเว้นแต่ฉันจะฝึกเซลล์ LSTM เพียงเซลล์เดียว ครั้ง ดังนั้นดูเหมือนว่าฉันจะฝึกเซลล์ LSTM หนึ่งเซลล์จากนั้นnโยงมันเข้าด้วยกันเพื่อหารายการเวกเตอร์ความยาวที่กำหนดn? แม้ว่าเซลล์ LSTM หนึ่งเซลล์จะมีองค์ประกอบและฟังก์ชั่นจำนวนหนึ่ง แต่รู้สึกว่ามันไม่เพียงพอที่จะรวบรวมข้อมูลมากมายในบางสิ่งที่เล็กมาก? ขอบคุณ มีทรัพยากรอื่น ๆ …

9 machine-learning neural-networks lstm rnn

2

ใช้ LSTM ที่ดีที่สุดสำหรับการทำนายเหตุการณ์ตามลำดับ

สมมติลำดับ 1 มิติต่อไปนี้: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... ตัวอักษรA, B, C, ..ที่นี่เป็นตัวแทนของเหตุการณ์ 'ธรรมดา' สัญลักษณ์#, $, %, ...ที่นี่แสดงถึงกิจกรรม 'พิเศษ' การเว้นวรรคชั่วคราวระหว่างเหตุการณ์ทั้งหมดนั้นไม่เหมือนกัน (ทุกอย่างจากไม่กี่วินาทีไปจนถึงหลายวัน) แม้ว่าเหตุการณ์ในอดีตที่ผ่านมามีความเป็นไปได้น้อยที่จะมีอิทธิพลต่อเหตุการณ์ในอนาคต เป็นการดีที่ฉันสามารถคำนึงถึงความล่าช้าเหล่านี้อย่างชัดเจน มีคำสั่งของประเภทเหตุการณ์ปกติ 10,000 ประเภทและลำดับเหตุการณ์พิเศษ 100 ชนิด จำนวนของกิจกรรมทั่วไปก่อนหน้ากิจกรรมพิเศษจะแตกต่างกันไป แต่ไม่น่าจะมากกว่า 100-300 โดยพื้นฐานฉันสนใจที่จะมองหารูปแบบในลำดับเหตุการณ์ปกติที่จบลงด้วยการทำนายเหตุการณ์พิเศษ ตอนนี้คุณสามารถเข้าถึงสิ่งนี้ได้หลายวิธี: การสร้างคุณสมบัติเวกเตอร์ + การจำแนกมาตรฐานการเรียนรู้กฎการเชื่อมโยง HMM ฯลฯ ในกรณีนี้ฉันอยากรู้ว่าเครือข่ายที่ใช้ LSTM …

9 time-series deep-learning rare-events lstm sequential-pattern-mining

คำถามติดแท็ก lstm