การป้องกันการโอเวอร์โหลดของ LSTM ในชุดข้อมูลขนาดเล็ก

ฉันกำลังสร้างแบบจำลอง 15000 ทวีตสำหรับการคาดการณ์ความเชื่อมั่นโดยใช้เลเยอร์ LSTM เดียวกับหน่วยที่ซ่อนอยู่ 128 หน่วยโดยใช้การแทนคำที่เหมือนคำ 2vec ด้วย 80 มิติ ฉันได้รับความแม่นยำในการสืบเชื้อสาย (38% กับการสุ่ม = 20%) หลังจาก 1 ยุค การฝึกอบรมเพิ่มเติมทำให้ความถูกต้องในการตรวจสอบความถูกต้องเริ่มลดลงเนื่องจากความแม่นยำในการฝึกอบรมเริ่มขึ้น

ฉันจึงคิดหาวิธีที่จะทำให้เป็นมาตรฐาน ฉันไม่ต้องการลดจำนวนหน่วยที่ซ่อนอยู่ (128 หน่วยดูเหมือนน้อยไปแล้ว) ขณะนี้ฉันใช้การออกกลางคันด้วยความน่าจะเป็น 50% แต่อาจเพิ่มขึ้นได้ เครื่องมือเพิ่มประสิทธิภาพคืออดัมพร้อมพารามิเตอร์เริ่มต้นสำหรับ Keras ( http://keras.io/optimizers/#adam )

วิธีที่มีประสิทธิภาพในการลดการ overfitting สำหรับโมเดลนี้ในชุดข้อมูลของฉันคืออะไร?

— pir
แหล่งที่มา

ฉันมีปัญหาเดียวกันแน่นอน ในที่สุดคุณจัดการ LSTM ให้เป็นมาตรฐานได้อย่างไร? ความแม่นยำในการตรวจสอบ LSTM ของฉันคือ 41% รูปร่างอินพุตของฉันคือ (200,) และฉันมีเลเยอร์ 1 LSTM 64 หน่วยตามด้วยเลเยอร์หนาแน่น 2 ชั้นที่มี 0.4 ดรอปเอาท์

— Nirvan Anjirbag

คุณสามารถลอง:

ลดจำนวนยูนิตที่ซ่อนอยู่ฉันรู้ว่าคุณบอกว่ามันดูเหมือนต่ำ แต่เมื่อชั้นเลเยอร์มีเพียง 80 คุณสมบัติจริง ๆ แล้วมันอาจเป็นได้ว่า 128 นั้นมากเกินไป กฎของหัวแม่มือคือการมีจำนวนหน่วยที่ซ่อนอยู่ในระหว่างจำนวนของหน่วยอินพุต (80) และชั้นเรียนเอาท์พุท (5);
อีกทางหนึ่งคุณสามารถเพิ่มขนาดของพื้นที่การแทนค่าอินพุตให้มากกว่า 80 (ซึ่งอาจเกินความเป็นจริงเช่นกันหากการแสดงนั้นแคบเกินไปสำหรับคำที่ระบุ)

วิธีที่ดีในการติดตั้งเครือข่ายนั้นเริ่มต้นด้วยเครือข่ายที่มากเกินไปแล้วลดความจุ (หน่วยที่ซ่อนอยู่และพื้นที่ฝัง) จนกว่าจะไม่เหมาะสม

— มิเกล
แหล่งที่มา

คุณลองใช้การทำให้เป็นมาตรฐาน l1 และ l2 หรือไม่? ใช้งานได้จริงหรือ คำตอบนี้แสดงว่าคุณไม่ควรทำเช่นนี้โดยทั่วไป

— Jakub Bartczuk

ฉันไม่ทราบคุณสมบัติของ RNN นี้ฉันจะลบจุดคำตอบนั้น

— Miguel

สวัสดีฉันสงสัยว่าคุณได้กฎของหัวแม่มือที่ระบุว่า "มีจำนวนหน่วยที่ซ่อนอยู่ในระหว่างจำนวนของหน่วยอินพุตและชั้นเรียนเอาท์พุท" มีกระดาษที่ฉันสามารถอ้างอิงได้หรือไม่

— ง

นั่นเป็นสิ่งที่เกี่ยวกับกฎของหัวแม่มือผมไม่ทราบว่าผมได้รับมันจาก ...

— มิเกล