เมื่อไม่นานมานี้ฉันสนใจ LSTM และฉันรู้สึกประหลาดใจเมื่อรู้ว่าน้ำหนักจะถูกแบ่งปันข้ามเวลา
ฉันรู้ว่าถ้าคุณแบ่งปันน้ำหนักข้ามช่วงเวลาลำดับการป้อนข้อมูลของคุณอาจเป็นความยาวผันแปรได้
ด้วยน้ำหนักที่ใช้ร่วมกันคุณจะมีพารามิเตอร์น้อยลงในการฝึกอบรม
จากความเข้าใจของฉันเหตุผลที่จะกลายเป็น LSTM กับวิธีการเรียนรู้อื่น ๆ ก็เพราะคุณเชื่อว่ามีโครงสร้าง / ลำดับ / การพึ่งพาชั่วคราวในข้อมูลของคุณที่คุณต้องการเรียนรู้ หากคุณเสียสละความยาว 'หรูหรา' และยอมรับเวลาคำนวณนาน RNN / LSTM จะไม่มีน้ำหนักที่ใช้ร่วมกัน (เช่นสำหรับทุกขั้นตอนที่คุณมีน้ำหนักแตกต่างกัน) ทำงานได้ดีขึ้นหรือมีบางสิ่งที่ขาดหายไป?