RNN พร้อมการทำให้เป็นมาตรฐาน L2 หยุดเรียนรู้


10

ฉันใช้สองทิศทาง RNN เพื่อตรวจสอบเหตุการณ์ที่เกิดขึ้นไม่สมดุลกัน ชั้นบวกเป็น 100 ครั้งน้อยกว่าชั้นลบ ในขณะที่ไม่มีการใช้งานแบบปกติฉันสามารถได้รับความถูกต้อง 100% ในชุดรถไฟและ 30% สำหรับชุดการตรวจสอบ ฉันเปิดใช้งานการทำให้เป็นปกติ l2 และผลลัพธ์นั้นมีความแม่นยำเพียง 30% ในชุดรถไฟแทนการเรียนรู้ที่ยาวนานขึ้นและความแม่นยำ 100% ในชุดการตรวจสอบความถูกต้อง

ฉันคิดว่าข้อมูลของฉันอาจเล็กเกินไปดังนั้นสำหรับการทดลองฉันรวมชุดรถไฟกับชุดทดสอบซึ่งฉันไม่เคยใช้มาก่อน สถานการณ์เหมือนกันกับฉันจะใช้การทำให้เป็นมาตรฐาน l2 ซึ่งฉันไม่ได้ตอนนี้ ฉันได้รับความแม่นยำ 30% สำหรับรถไฟ + การทดสอบและการตรวจสอบ

ในการใช้หน่วยที่ถูกซ่อน 128 และ 80 เวลาในการทดลองที่กล่าวถึงเมื่อฉันเพิ่มจำนวนหน่วยที่ซ่อนอยู่เป็น 256 ฉันสามารถ overfit บนรถไฟ + ชุดทดสอบอีกครั้งเพื่อให้ได้ความถูกต้อง 100% แต่ยังคงมีเพียง 30% ในชุดการตรวจสอบ

ฉันลองตัวเลือกมากมายสำหรับพารามิเตอร์และเกือบจะไม่มีผลลัพธ์ บางทีเอนโทรปีของการถ่วงน้ำหนักอาจทำให้เกิดปัญหาในการทดลองที่กำหนดน้ำหนักของชั้นบวกคือ 5 ในขณะที่การลองตุ้มน้ำหนักขนาดใหญ่ผลลัพธ์มักจะแย่ลงประมาณ 20% ของความแม่นยำ

ฉันลองเซลล์ LSTM และ GRU ไม่แตกต่างกัน

ผลลัพธ์ที่ดีที่สุดที่ฉันได้รับ ฉันลองเลเยอร์ที่ซ่อนอยู่ 2 แห่งกับ 256 ยูนิตที่ซ่อนอยู่มันใช้เวลาในการคำนวณประมาณ 3 วันและหน่วยความจำ GPU 8GB ฉันมีความแม่นยำประมาณ 40-50% ก่อนที่จะเริ่มทำการ overfitting อีกครั้งในขณะที่การทำให้เป็นมาตรฐาน l2 นั้นเปิดอยู่ แต่ไม่แรงมาก

ฉันใช้เครื่องมือเพิ่มประสิทธิภาพของอดัมคนอื่นทำงานได้ไม่ดี คุณสมบัติที่ฉันมีเพียงพอเพราะในขณะที่ใช้เครื่องรัฐฉันจะได้รับความแม่นยำ 90% ในเครื่องของรัฐนั้นคุณสมบัติหลักคือการรวมและการกำหนดใหม่ขึ้นอยู่กับคุณสมบัติของคุณสมบัติอื่น ๆ และความยาวของตัวแปรบางครั้งมันเป็น 10, บางครั้ง 20 เวลาประทับที่พูดถึงคุณสมบัติ

มีแนวทางทั่วไปที่ควรทำในสถานการณ์นี้หรือไม่? ฉันหาอะไรไม่เจอ

คำตอบ:


11

บทความเกี่ยวกับ Bengio และคณะ " ความยากลำบากในการฝึกอบรมเครือข่ายประสาทกำเริบ " ให้คำใบ้ว่าทำไมการทำให้เป็นมาตรฐานของ L2 อาจทำให้ประสิทธิภาพของ RNN ลดลง โดยพื้นฐานแล้ว L1 / L2 ทำให้เซลล์ RNN เป็นปกติยังลดความสามารถของเซลล์ในการเรียนรู้และเก็บรักษาข้อมูลตลอดเวลา

การใช้การลงโทษ L1 หรือ L2 กับน้ำหนักที่เกิดซ้ำสามารถช่วยในการกระจายการไล่ระดับสี สมมติว่าน้ำหนักเริ่มต้นเป็นค่าเล็ก ๆ ซึ่งเป็นค่าเอกพจน์ที่ใหญ่ที่สุดλ1 ของ WRอี อาจมีขนาดเล็กกว่า 1 เทอม L1 / L2 สามารถมั่นใจได้ว่าในระหว่างการฝึกอบรม λ1อยู่ที่น้อยกว่า 1 และในการไล่ระดับสีของระบอบการปกครองนี้ไม่สามารถระเบิดได้ วิธีการนี้ จำกัด ตัวแบบให้อยู่ในจุดดึงดูดเดียวที่จุดกำเนิดซึ่งข้อมูลใด ๆ ที่แทรกอยู่ในตัวแบบนั้นจะตายเร็วมาก สิ่งนี้ป้องกันไม่ให้โมเดลเรียนรู้เครือข่ายของตัวสร้างและไม่สามารถแสดงร่องรอยของหน่วยความจำระยะยาวได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.