ฉันรู้ว่าเครือข่ายที่เหลือ (ResNet) ทำให้เขาเริ่มต้นปกติเป็นที่นิยม ใน ResNet จะใช้การกำหนดค่าเริ่มต้นตามปกติขณะที่ชั้นแรกใช้การกำหนดค่าเริ่มต้นที่สม่ำเสมอ
ฉันได้ดูกระดาษ ResNet และกระดาษ "Delving Deep to Rectifiers" (เขาเริ่มต้นกระดาษ) แต่ฉันไม่พบพูดถึงเกี่ยวกับ init ปกติกับชุด init
นอกจากนี้:
การทำให้เป็นมาตรฐานแบบกลุ่มช่วยให้เราสามารถใช้อัตราการเรียนรู้ที่สูงขึ้นมากและระวังการเริ่มต้นน้อยลง
ในบทคัดย่อของ Batch Normalization นั้นมีการกล่าวกันว่า Batch Normalization นั้นช่วยให้เราระมัดระวังการเริ่มต้นน้อยลง
ResNet เองยังคงสนใจว่าเมื่อใดควรใช้ init ปกติกับชุด init (แทนที่จะใช้เพียงกับ init init)
ดังนั้น:
- ควรใช้การเริ่มต้น (He หรือ Glorot) แบบกระจายทั่วไปมากกว่าการเริ่มต้นสม่ำเสมอหรือไม่
- การกำหนดค่าเริ่มต้นทั่วไปที่กระจายด้วย Batch Normalization คืออะไร
หมายเหตุด้าน:
- มันเป็นเพลงที่ใช้ init ปกติกับ Batch Normalization แต่ฉันไม่พบกระดาษใด ๆ ที่จะสนับสนุนความจริงข้อนี้
- ฉันรู้ว่า ResNet ใช้เขาเริ่มต้นเหนือ Glorot init เพราะเขาริเริ่มทำได้ดีกว่าบนเครือข่ายที่ลึก
- ฉันได้เข้าใจเกี่ยวกับ Glorot init VS เขา init
- คำถามของฉันเกี่ยวกับ Normal vs Uniform init