ความยาวของลำดับที่เป็นไปได้สำหรับ RNN ถึงรุ่นคืออะไร


15

ฉันกำลังมองหาการใช้ LSTM ( หน่วยความจำระยะสั้นระยะยาว ) ของเครือข่ายประสาทกำเริบ (RNN) สำหรับการสร้างแบบจำลองข้อมูลชุดเวลา เมื่อความยาวของข้อมูลเพิ่มขึ้นความซับซ้อนของเครือข่ายจะเพิ่มขึ้น ดังนั้นฉันจึงสงสัยว่าจะมีความยาวของลำดับอย่างไรกับโมเดลที่มีความแม่นยำดี

ฉันต้องการใช้ LSTM รุ่นที่ค่อนข้างเรียบง่ายโดยไม่ยากที่จะใช้วิธีการที่ทันสมัย การสังเกตการณ์แต่ละครั้งใน Timeseries ของฉันมีตัวแปรตัวเลข 4 ตัวและจำนวนการสังเกตจะอยู่ที่ประมาณ 100,000 ถึง 1.000.000

คำตอบ:


8

ทั้งหมดขึ้นอยู่กับลักษณะของข้อมูลของคุณและความสัมพันธ์ภายในไม่มีกฎง่ายๆ อย่างไรก็ตามเนื่องจากคุณมีข้อมูลจำนวนมาก LSTM แบบ 2 เลเยอร์สามารถสร้างแบบจำลองปัญหา / การวัดเวลาแบบอนุกรมขนาดใหญ่ได้

นอกจากนี้คุณไม่ได้ทำการ back-through-time ให้กับทั้งซีรีย์ แต่มักจะเป็น (200-300) ขั้นตอนสุดท้าย เพื่อหาค่าที่ดีที่สุดคุณสามารถตรวจสอบความถูกต้องโดยใช้การค้นหากริดหรือการปรับให้เหมาะสมแบบเบย์ นอกจากนี้คุณสามารถดูได้ที่พารามิเตอร์ที่นี่: https://github.com/wojzaremba/lstm/blob/master/main.lua

ดังนั้นความยาวของลำดับนั้นจะไม่ส่งผลกระทบต่อการฝึกอบรมแบบจำลองของคุณ แต่มันเหมือนมีตัวอย่างการฝึกอบรมมากขึ้นซึ่งคุณเพียงแค่รักษาสถานะก่อนหน้าไว้แทนที่จะรีเซ็ตมัน


บอกว่าฉันต้องทำการวิเคราะห์ความเชื่อมั่นซึ่งเป็นวิธีการแบบตัวต่อตัว (ดูkarpathy.github.io/2015/05/21/rnn-effectiveness ) แต่ละประโยคมีความยาวมาก (> 200 คำ) หากฉันย้อนเวลาเผยแพร่ไปตามขั้นตอนปกติ 35 ขั้นตอนเท่านั้นนั่นจะไม่ใช่ปัญหาหรือไม่ เนื่องจากเป็นการเรียนรู้แบบมีผู้สอนฉันคิดว่ามันสามารถ backpropagate ได้เมื่อมัน "เข้าชม" เป้าหมายการจำแนกประเภทไบนารีyเท่านั้น ด้วยวิธีนี้ RNN จะปรับน้ำหนักตามอะไรก่อน 35 ขั้นตอนที่เลือกสำหรับ BPTT
pir

1
มันจะไม่เป็นปัญหาเพราะมีการใช้น้ำหนักเดียวกันในขั้นตอนการฝึกอบรมถัดไป นอกจากนี้หากคุณเห็นซอร์สโค้ดในขั้นตอนที่ 36 (สมมุติว่า) เวกเตอร์เริ่มต้นไม่ใช่ศูนย์ แต่เป็นสถานะของขั้นตอนที่ 35 ดังนั้นโดยทำตามขั้นตอนเล็ก ๆ
Yannis Assael

1
เพียงชี้แจง: BPTT ทำงานครั้งเดียวหรือหลายครั้งสำหรับประโยคเดียวหรือไม่? หากเรียกใช้ครั้งเดียวรูปแบบที่ส่งผลต่อคำสองสามคำแรกในประโยคจะส่งผลต่อสถานะที่ซ่อนอยู่ใช่ไหม ฉันหมายความว่า .. การไล่ระดับสีจะไม่ถูกคำนวณโดยคำนึงถึงส่วนนั้นของอินพุต
pir

1
ฉันถามคำถามนี้แยกต่างหากเป็นคำถามที่ฉันหวังว่าคุณจะดู :) stats.stackexchange.com/questions/167482/…
pir

2
"เนื่องจากคุณมีข้อมูลจำนวนมาก LSTM แบบ 2 เลเยอร์สามารถสร้างชุดข้อมูลได้ทุกเวลา" หลักฐานอยู่ที่ไหน
nbro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.