เมื่อเริ่มต้นน้ำหนักการเชื่อมต่อในเครือข่ายประสาท feedforward เป็นสิ่งสำคัญที่จะเริ่มต้นพวกเขาแบบสุ่มเพื่อหลีกเลี่ยง symmetries ใด ๆ ที่อัลกอริทึมการเรียนรู้จะไม่สามารถทำลาย
คำแนะนำที่ฉันได้เห็นในสถานที่ต่าง ๆ (เช่นในการสอน MNIST ของTensorFlow ) คือการใช้การแจกแจงแบบปกติที่ถูกตัดทอนโดยใช้ค่าเบี่ยงเบนมาตรฐานของโดยที่คือจำนวนอินพุตของ รับชั้นเซลล์ประสาท
ฉันเชื่อว่าสูตรค่าเบี่ยงเบนมาตรฐานช่วยให้มั่นใจว่าการไล่ระดับสีที่ backpropagated ไม่ละลายหรือขยายเร็วเกินไป แต่ฉันไม่รู้ว่าทำไมเราจึงใช้การแจกแจงแบบปกติที่ถูกตัดทอนเมื่อเทียบกับการแจกแจงแบบปกติทั่วไป มันคือการหลีกเลี่ยงน้ำหนักผิดปกติที่หายาก?