เมื่อฝึกอบรมโครงข่ายประสาทเทียมหนึ่งพารามิเตอร์ขนาดใหญ่คือขนาดของรถมินิบัส ตัวเลือกทั่วไปคือองค์ประกอบ 32, 64 และ 128 ต่อมินิแบทช์
มีกฎ / แนวทางใดบ้างที่ควรมี mini-batch ขนาดใหญ่? สิ่งพิมพ์ใดบ้างที่ตรวจสอบผลกระทบของการฝึกอบรม?
เมื่อฝึกอบรมโครงข่ายประสาทเทียมหนึ่งพารามิเตอร์ขนาดใหญ่คือขนาดของรถมินิบัส ตัวเลือกทั่วไปคือองค์ประกอบ 32, 64 และ 128 ต่อมินิแบทช์
มีกฎ / แนวทางใดบ้างที่ควรมี mini-batch ขนาดใหญ่? สิ่งพิมพ์ใดบ้างที่ตรวจสอบผลกระทบของการฝึกอบรม?
คำตอบ:
ในการฝึกอบรมชุดใหญ่สำหรับการเรียนรู้ลึก: Generalization Gap และ Sharp Minimaมีข้อความสองสามข้อความที่ขัดกัน:
มันถูกตั้งข้อสังเกตในทางปฏิบัติว่าเมื่อใช้ชุดที่มีขนาดใหญ่กว่านั้นคุณภาพของแบบจำลองจะลดลงตามที่วัดได้จากความสามารถในการสรุป [... ]
วิธีการแบบกลุ่มขนาดใหญ่มีแนวโน้มที่จะมาบรรจบกับฟังก์ชั่นการฝึกอบรมและการทดสอบขนาดเล็กที่สุดซึ่งเป็นที่ทราบกันดีว่าการลดขนาดลงอย่างรวดเร็วนำไปสู่การวางนัยทั่วไปที่ไม่ดี n ในทางตรงกันข้ามวิธีการชุดเล็ก ๆ จะรวมกันเป็น minimizer แบบแบน ๆ อย่างต่อเนื่องและการทดลองของเราสนับสนุนมุมมองที่ถือกันโดยทั่วไปว่าเกิดจากสัญญาณรบกวนโดยธรรมชาติในการประมาณการไล่ระดับสี
จากวิทยานิพนธ์ปริญญาโทของฉัน : ดังนั้นการเลือกอิทธิพลขนาดเล็กชุด:
สิ่งสำคัญคือให้สังเกตการโต้ตอบของพารามิเตอร์หลายมิติ : ขนาดของแบตช์อาจโต้ตอบกับพารามิเตอร์ไฮเปอร์อื่น ๆ ซึ่งเป็นอัตราการเรียนรู้ที่สะดุดตาที่สุด ในการทดลองบางอย่างการมีปฏิสัมพันธ์นี้อาจทำให้ยากที่จะแยกผลกระทบของขนาดแบทช์เพียงอย่างเดียวกับคุณภาพของแบบจำลอง การมีปฏิสัมพันธ์ที่แข็งแกร่งอีกประการหนึ่งคือการหยุดก่อนกำหนดเพื่อทำให้เป็นมาตรฐาน