คำถามติดแท็ก truncated-normal

2
ประโยชน์ของการกระจายแบบปกติที่ถูกตัดทอนในการเริ่มต้นน้ำหนักในเครือข่ายประสาทคืออะไร
เมื่อเริ่มต้นน้ำหนักการเชื่อมต่อในเครือข่ายประสาท feedforward เป็นสิ่งสำคัญที่จะเริ่มต้นพวกเขาแบบสุ่มเพื่อหลีกเลี่ยง symmetries ใด ๆ ที่อัลกอริทึมการเรียนรู้จะไม่สามารถทำลาย คำแนะนำที่ฉันได้เห็นในสถานที่ต่าง ๆ (เช่นในการสอน MNIST ของTensorFlow ) คือการใช้การแจกแจงแบบปกติที่ถูกตัดทอนโดยใช้ค่าเบี่ยงเบนมาตรฐานของโดยที่คือจำนวนอินพุตของ รับชั้นเซลล์ประสาท1ยังไม่มีข้อความ--√1N\dfrac{1}{\sqrt{N}}ยังไม่มีข้อความNN ฉันเชื่อว่าสูตรค่าเบี่ยงเบนมาตรฐานช่วยให้มั่นใจว่าการไล่ระดับสีที่ backpropagated ไม่ละลายหรือขยายเร็วเกินไป แต่ฉันไม่รู้ว่าทำไมเราจึงใช้การแจกแจงแบบปกติที่ถูกตัดทอนเมื่อเทียบกับการแจกแจงแบบปกติทั่วไป มันคือการหลีกเลี่ยงน้ำหนักผิดปกติที่หายาก?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.