2
ควรใช้การเริ่มต้นปกติ (He หรือ Glorot) มากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ และผลกระทบอะไรกับ Batch Normalization
ฉันรู้ว่าเครือข่ายที่เหลือ (ResNet) ทำให้เขาเริ่มต้นปกติเป็นที่นิยม ใน ResNet จะใช้การกำหนดค่าเริ่มต้นตามปกติขณะที่ชั้นแรกใช้การกำหนดค่าเริ่มต้นที่สม่ำเสมอ ฉันได้ดูกระดาษ ResNet และกระดาษ "Delving Deep to Rectifiers" (เขาเริ่มต้นกระดาษ) แต่ฉันไม่พบพูดถึงเกี่ยวกับ init ปกติกับชุด init นอกจากนี้: การทำให้เป็นมาตรฐานแบบกลุ่มช่วยให้เราสามารถใช้อัตราการเรียนรู้ที่สูงขึ้นมากและระวังการเริ่มต้นน้อยลง ในบทคัดย่อของ Batch Normalization นั้นมีการกล่าวกันว่า Batch Normalization นั้นช่วยให้เราระมัดระวังการเริ่มต้นน้อยลง ResNet เองยังคงสนใจว่าเมื่อใดควรใช้ init ปกติกับชุด init (แทนที่จะใช้เพียงกับ init init) ดังนั้น: ควรใช้การเริ่มต้น (He หรือ Glorot) แบบกระจายทั่วไปมากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ การกำหนดค่าเริ่มต้นทั่วไปที่กระจายด้วย Batch Normalization คืออะไร หมายเหตุด้าน: มันเป็นเพลงที่ใช้ init ปกติกับ Batch …