คำถามติดแท็ก batch-normalization

1
Paper: อะไรคือความแตกต่างระหว่างการปรับสภาพเลเยอร์, ​​การทำซ้ำเป็นชุดงานประจำ (2016), และการวางเป็นบรรทัดฐานปกติ RNN (2015)?
ดังนั้นเมื่อเร็ว ๆ นี้มีกระดาษมาตรฐานการทำให้เป็นปกติ นอกจากนี้ยังมีการนำไปใช้กับ Keras แต่ฉันจำได้ว่ามีเอกสารชื่อRecurrent Batch Normalization (Cooijmans, 2016) และBatch Normalized Recurrent Neural Networks (Laurent, 2015) ความแตกต่างระหว่างสามสิ่งนี้คืออะไร? มีส่วนงานที่เกี่ยวข้องนี้ฉันไม่เข้าใจ: การทำให้เป็นมาตรฐานของกลุ่มได้ถูกขยายไปยังเครือข่ายประสาทที่เกิดขึ้นอีกครั้ง [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016] งานก่อนหน้านี้ [Cooijmans et al., 2016] แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดของการทำให้เป็นมาตรฐานการเกิดซ้ำที่เกิดขึ้นจากการรักษาสถิติการทำให้ปกติเป็นอิสระสำหรับแต่ละขั้นตอน ผู้เขียนแสดงให้เห็นว่าการกำหนดค่าเริ่มต้นของพารามิเตอร์ gain ในเลเยอร์การทำให้เป็นปกติของแบตช์กลับเป็น 0.1 ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพสุดท้ายของตัวแบบ งานของเรายังเกี่ยวข้องกับการทำให้น้ำหนักปกติ [Salimans and Kingma, 2016] ในการทำให้น้ำหนักเป็นมาตรฐานแทนที่จะเป็นความแปรปรวนค่า L2 …

2
การนอร์มัลแบตช์หมายถึงว่า sigmoids ทำงานได้ดีกว่า ReLUs หรือไม่?
การปรับสภาพแบทช์และ ReLU เป็นวิธีแก้ปัญหาการไล่ระดับสีที่หายไป หากเราใช้การทำให้เป็นมาตรฐานเป็นชุดเราควรใช้ sigmoids ไหม? หรือมีคุณสมบัติของ ReLUs ที่ทำให้พวกเขามีค่าแม้เมื่อใช้ batchnorm? ฉันคิดว่าการฟื้นฟูที่ทำใน batchnorm จะส่งการเปิดใช้งานเป็นศูนย์เชิงลบ นั่นหมายความว่า batchnorm แก้ปัญหา "dead ReLU" หรือไม่? แต่ธรรมชาติอย่างต่อเนื่องของ tanh และ logistic ยังคงน่าสนใจ ถ้าฉันใช้ batchnorm tanh จะทำงานได้ดีกว่า ReLU หรือไม่ ฉันแน่ใจว่าคำตอบขึ้นอยู่กับ ดังนั้นประสบการณ์ทำงานของคุณคืออะไรและคุณสมบัติเด่นของแอปพลิเคชันของคุณคืออะไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.