เหตุใดแบทช์มาตรฐานจึงมีขนาดและการเรียนรู้ที่เปลี่ยนแปลงได้?


13

เท่าที่ผมเข้าใจมันเป็นบรรทัดฐานชุด normalises ป้อนข้อมูลทั้งหมดที่มีคุณสมบัติชั้นเพื่อการกระจายปกติหน่วย1) ค่าเฉลี่ยและความแปรปรวนถูกประเมินโดยการวัดค่าของพวกเขาสำหรับมินิแบทช์ปัจจุบันยังไม่มีข้อความ(μ=0,σ=1)μ,σ2

หลังจากการทำให้เป็นมาตรฐานแล้วอินพุตจะถูกปรับขนาดและเลื่อนตามค่าสเกลาร์:

x^ผม'=γx^ผม+β

(แก้ไขฉันถ้าฉันผิดที่นี่ - นี่คือที่ฉันเริ่มไม่แน่ใจเล็กน้อย)

γและเป็นค่าสเกลาร์และมีคู่ของแต่ละค่าสำหรับเลเยอร์ที่มีบรรทัดฐานแบทช์ พวกเขาเรียนรู้พร้อมกับน้ำหนักโดยใช้ backprop และ SGDβ

คำถามของฉันคือไม่ใช่พารามิเตอร์เหล่านี้ซ้ำซ้อนเพราะอินพุตสามารถปรับขนาดและเลื่อนได้ด้วยน้ำหนักในเลเยอร์เอง ในคำอื่น ๆ ถ้า

Y=Wx^'+

และ

x^'=γx^+β

แล้วก็

Y=W'x^+'

ที่และBW'=Wγ'=Wβ+

ดังนั้นอะไรคือจุดเพิ่มของเครือข่ายที่สามารถเรียนรู้ขนาดและการเปลี่ยนแปลงได้แล้ว? หรือฉันเข้าใจผิดอย่างสิ้นเชิง?

คำตอบ:


13

มีคำตอบที่สมบูรณ์ในหนังสือการเรียนรู้ลึกหัวข้อ 8.7.1 :

การทำให้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของหน่วยเป็นมาตรฐานสามารถลดกำลังการแสดงของโครงข่ายประสาทเทียมที่มียูนิตนั้นได้ เพื่อรักษาพลังการแสดงออกของเครือข่ายมันเป็นเรื่องปกติที่จะแทนที่ชุดของการเปิดใช้งานหน่วยที่ซ่อนเร้น H ด้วยγH + βแทนที่จะเป็นเพียงแค่ H Normalized Normalized ตัวแปรγและβเป็นตัวแปรที่เรียนรู้ที่อนุญาตให้ตัวแปรใหม่มีค่าเฉลี่ยและ ส่วนเบี่ยงเบนมาตรฐาน. เมื่อดูอย่างรวดเร็วครั้งแรกสิ่งนี้อาจดูเหมือนไร้ประโยชน์ - เหตุใดเราจึงตั้งค่าเฉลี่ยเป็น 0 จากนั้นแนะนำพารามิเตอร์ที่อนุญาตให้ตั้งค่ากลับเป็นค่าใดก็ได้β

คำตอบก็คือ parametrization ใหม่สามารถเป็นตัวแทนของตระกูลเดียวกันของฟังก์ชั่นของอินพุตเป็น parametrization เก่า แต่ parametrization ใหม่มีการเปลี่ยนแปลงการเรียนรู้ที่แตกต่างกัน ใน parametrization เก่าค่าเฉลี่ยของ H ถูกกำหนดโดยการทำงานร่วมกันที่ซับซ้อนระหว่างพารามิเตอร์ในเลเยอร์ด้านล่าง H ใน parametrization ใหม่ค่าเฉลี่ยของγH + βถูกกำหนดโดยβเท่านั้น parametrization ใหม่นั้นง่ายกว่ามากในการเรียนรู้ด้วยการไล่ระดับสี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.