ควรใช้การเริ่มต้นปกติ (He หรือ Glorot) มากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ และผลกระทบอะไรกับ Batch Normalization


51

ฉันรู้ว่าเครือข่ายที่เหลือ (ResNet) ทำให้เขาเริ่มต้นปกติเป็นที่นิยม ใน ResNet จะใช้การกำหนดค่าเริ่มต้นตามปกติขณะที่ชั้นแรกใช้การกำหนดค่าเริ่มต้นที่สม่ำเสมอ

ฉันได้ดูกระดาษ ResNet และกระดาษ "Delving Deep to Rectifiers" (เขาเริ่มต้นกระดาษ) แต่ฉันไม่พบพูดถึงเกี่ยวกับ init ปกติกับชุด init

นอกจากนี้:

การทำให้เป็นมาตรฐานแบบกลุ่มช่วยให้เราสามารถใช้อัตราการเรียนรู้ที่สูงขึ้นมากและระวังการเริ่มต้นน้อยลง

ในบทคัดย่อของ Batch Normalization นั้นมีการกล่าวกันว่า Batch Normalization นั้นช่วยให้เราระมัดระวังการเริ่มต้นน้อยลง

ResNet เองยังคงสนใจว่าเมื่อใดควรใช้ init ปกติกับชุด init (แทนที่จะใช้เพียงกับ init init)

ดังนั้น:

  • ควรใช้การเริ่มต้น (He หรือ Glorot) แบบกระจายทั่วไปมากกว่าการเริ่มต้นสม่ำเสมอหรือไม่
  • การกำหนดค่าเริ่มต้นทั่วไปที่กระจายด้วย Batch Normalization คืออะไร

หมายเหตุด้าน:

  • มันเป็นเพลงที่ใช้ init ปกติกับ Batch Normalization แต่ฉันไม่พบกระดาษใด ๆ ที่จะสนับสนุนความจริงข้อนี้
  • ฉันรู้ว่า ResNet ใช้เขาเริ่มต้นเหนือ Glorot init เพราะเขาริเริ่มทำได้ดีกว่าบนเครือข่ายที่ลึก
  • ฉันได้เข้าใจเกี่ยวกับ Glorot init VS เขา init
  • คำถามของฉันเกี่ยวกับ Normal vs Uniform init

คำตอบ:


34

init ปกติกับเครื่องแบบสม่ำเสมอดูเหมือนจะค่อนข้างชัดเจนในความเป็นจริง

ถ้าเราอ้างอิงเพียงเอกสารการเริ่มต้นของGlorotและพระองค์พวกเขาทั้งสองใช้การวิเคราะห์เชิงทฤษฎีที่คล้ายกัน: พวกเขาพบความแปรปรวนที่ดีสำหรับการแจกแจงซึ่งพารามิเตอร์เริ่มต้นถูกดึงออกมา ความแปรปรวนนี้ถูกปรับให้เข้ากับฟังก์ชั่นการเปิดใช้งานที่ได้รับและไม่ได้รับการพิจารณาอย่างชัดเจนถึงประเภทของการแจกจ่าย เช่นนี้ข้อสรุปเชิงทฤษฎีของพวกเขามีไว้สำหรับการแจกแจงความแปรปรวนที่กำหนดทุกประเภท ในความเป็นจริงในกระดาษ Glorot มีการใช้ชุดการแจกแจงแบบสม่ำเสมอในขณะที่กระดาษ He จะเป็นชุดแบบเกาส์เซียนที่ถูกเลือก "การอธิบาย" เพียงอย่างเดียวที่ให้ไว้สำหรับตัวเลือกนี้ในกระดาษของพระองค์คือ:

CNNs ที่ลึกที่สุดเมื่อเร็ว ๆ นี้ส่วนใหญ่จะเริ่มต้นด้วยการสุ่มน้ำหนักที่ดึงมาจากการแจกแจงแบบเกาส์

มีการอ้างอิงถึงกระดาษ AlexNet มันถูกปล่อยออกมาช้ากว่าการกำหนดค่าเริ่มต้นของ Glorot เล็กน้อย แต่อย่างไรก็ตามไม่มีความชอบธรรมในการใช้การแจกแจงแบบปกติ

ในความเป็นจริงในการอภิปรายเกี่ยวกับปัญหาติดตามของ Kerasพวกเขาดูเหมือนจะสับสนเล็กน้อยและโดยทั่วไปมันอาจเป็นเรื่องของการตั้งค่า ... (เช่น hypotetically Bengio จะชอบการกระจายเครื่องแบบ หนึ่งการอภิปรายมีมาตรฐานขนาดเล็กเมื่อเปรียบเทียบกับการเริ่มต้น Glorot โดยใช้เครื่องแบบและการแจกแจงแบบเกาส์เซียน ในท้ายที่สุดดูเหมือนว่าชุดชนะ แต่ไม่ชัดเจนจริงๆ

ในกระดาษ ResNetดั้งเดิมมีเพียงกล่าวว่าพวกเขาใช้ Gaussian เขาเริ่มต้นสำหรับเลเยอร์ทั้งหมดฉันไม่สามารถหาตำแหน่งที่เขียนว่าพวกเขาใช้เครื่องแบบพระองค์ที่ประทับสำหรับชั้นแรก (บางทีคุณอาจแบ่งปันการอ้างอิงถึงสิ่งนี้?)

สำหรับการใช้ gaussian init กับ Batch Normalization, ด้วย BN กระบวนการปรับให้เหมาะสมนั้นไม่ไวต่อการเริ่มต้นดังนั้นมันจึงเป็นเพียงการประชุมที่ฉันจะพูด


ฉันผิดที่ คุณพูดถูกว่า ResNet ไม่ได้ใช้การเริ่มต้นที่สม่ำเสมอ ฉันยืนแก้ไขแล้ว
rilut

0

1
กรุณาหลีกเลี่ยงการโพสต์เพียงลิงค์ ลิงก์ใด ๆ สามารถกลายเป็นตายหลังจากผ่านไประยะหนึ่งและผู้อ่านใหม่จะไม่สามารถตรวจสอบคำตอบได้ คุณสามารถโพสต์ลิงค์ได้ แต่เพิ่มบทสรุปของส่วนที่สำคัญที่สุดเป็นข้อความด้วยเสมอ
Tasos

@Tasos แสดงความคิดเห็นดีสังเกต มีข้อมูลมากเกินไปที่จะสรุปและนี่คือเหตุผลที่ฉันโพสต์ลิงก์แทนและฉันได้รับคะแนนของคุณจากลิงก์ที่เสีย ขอบคุณ
rocksyne
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.