เท่าที่ผมเข้าใจมันเป็นบรรทัดฐานชุด normalises ป้อนข้อมูลทั้งหมดที่มีคุณสมบัติชั้นเพื่อการกระจายปกติหน่วย1) ค่าเฉลี่ยและความแปรปรวนถูกประเมินโดยการวัดค่าของพวกเขาสำหรับมินิแบทช์ปัจจุบัน
หลังจากการทำให้เป็นมาตรฐานแล้วอินพุตจะถูกปรับขนาดและเลื่อนตามค่าสเกลาร์:
(แก้ไขฉันถ้าฉันผิดที่นี่ - นี่คือที่ฉันเริ่มไม่แน่ใจเล็กน้อย)
และเป็นค่าสเกลาร์และมีคู่ของแต่ละค่าสำหรับเลเยอร์ที่มีบรรทัดฐานแบทช์ พวกเขาเรียนรู้พร้อมกับน้ำหนักโดยใช้ backprop และ SGD
คำถามของฉันคือไม่ใช่พารามิเตอร์เหล่านี้ซ้ำซ้อนเพราะอินพุตสามารถปรับขนาดและเลื่อนได้ด้วยน้ำหนักในเลเยอร์เอง ในคำอื่น ๆ ถ้า
และ
แล้วก็
ที่และB
ดังนั้นอะไรคือจุดเพิ่มของเครือข่ายที่สามารถเรียนรู้ขนาดและการเปลี่ยนแปลงได้แล้ว? หรือฉันเข้าใจผิดอย่างสิ้นเชิง?