ดังนั้นเมื่อเร็ว ๆ นี้มีกระดาษมาตรฐานการทำให้เป็นปกติ นอกจากนี้ยังมีการนำไปใช้กับ Keras
แต่ฉันจำได้ว่ามีเอกสารชื่อRecurrent Batch Normalization (Cooijmans, 2016) และBatch Normalized Recurrent Neural Networks (Laurent, 2015) ความแตกต่างระหว่างสามสิ่งนี้คืออะไร?
มีส่วนงานที่เกี่ยวข้องนี้ฉันไม่เข้าใจ:
การทำให้เป็นมาตรฐานของกลุ่มได้ถูกขยายไปยังเครือข่ายประสาทที่เกิดขึ้นอีกครั้ง [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016] งานก่อนหน้านี้ [Cooijmans et al., 2016] แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดของการทำให้เป็นมาตรฐานการเกิดซ้ำที่เกิดขึ้นจากการรักษาสถิติการทำให้ปกติเป็นอิสระสำหรับแต่ละขั้นตอน ผู้เขียนแสดงให้เห็นว่าการกำหนดค่าเริ่มต้นของพารามิเตอร์ gain ในเลเยอร์การทำให้เป็นปกติของแบตช์กลับเป็น 0.1 ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพสุดท้ายของตัวแบบ งานของเรายังเกี่ยวข้องกับการทำให้น้ำหนักปกติ [Salimans and Kingma, 2016] ในการทำให้น้ำหนักเป็นมาตรฐานแทนที่จะเป็นความแปรปรวนค่า L2 ปกติของตุ้มน้ำหนักที่เข้ามาจะถูกใช้เพื่อทำให้อินพุตที่รวมเข้ากับเซลล์ประสาทเป็นปกติ. การใช้การทำให้น้ำหนักเป็นมาตรฐานหรือการทำแบทช์ให้เป็นมาตรฐานโดยใช้สถิติที่คาดการณ์นั้นเทียบเท่ากับการสร้างพารามิเตอร์ที่แตกต่างกันของเครือข่ายนิวรัล - ไปข้างหน้าเดิม การกำหนดพารามิเตอร์ใหม่ในเครือข่าย ReLU ได้รับการศึกษาใน Pathnormalized SGD [Neyshabur et al., 2015] อย่างไรก็ตามวิธีการปรับมาตรฐานของเลเยอร์ที่เรานำเสนอนั้นไม่ใช่วิธีการกำหนดพารามิเตอร์ใหม่ของเครือข่ายประสาทเทียมดั้งเดิม ดังนั้นโมเดลเลเยอร์ที่ทำให้เป็นมาตรฐานนั้นมีคุณสมบัติค่าคงที่ที่แตกต่างจากวิธีอื่นซึ่งเราจะศึกษาในส่วนต่อไปนี้