ประโยชน์ของการกระจายแบบปกติที่ถูกตัดทอนในการเริ่มต้นน้ำหนักในเครือข่ายประสาทคืออะไร


13

เมื่อเริ่มต้นน้ำหนักการเชื่อมต่อในเครือข่ายประสาท feedforward เป็นสิ่งสำคัญที่จะเริ่มต้นพวกเขาแบบสุ่มเพื่อหลีกเลี่ยง symmetries ใด ๆ ที่อัลกอริทึมการเรียนรู้จะไม่สามารถทำลาย

คำแนะนำที่ฉันได้เห็นในสถานที่ต่าง ๆ (เช่นในการสอน MNIST ของTensorFlow ) คือการใช้การแจกแจงแบบปกติที่ถูกตัดทอนโดยใช้ค่าเบี่ยงเบนมาตรฐานของโดยที่คือจำนวนอินพุตของ รับชั้นเซลล์ประสาท1NN

ฉันเชื่อว่าสูตรค่าเบี่ยงเบนมาตรฐานช่วยให้มั่นใจว่าการไล่ระดับสีที่ backpropagated ไม่ละลายหรือขยายเร็วเกินไป แต่ฉันไม่รู้ว่าทำไมเราจึงใช้การแจกแจงแบบปกติที่ถูกตัดทอนเมื่อเทียบกับการแจกแจงแบบปกติทั่วไป มันคือการหลีกเลี่ยงน้ำหนักผิดปกติที่หายาก?


คุณสามารถให้แหล่งที่มาของคำแนะนำนี้และ / หรือใบเสนอราคาโดยตรงได้หรือไม่?
ทิม

+ ทิมจุดดีฉันได้เพิ่มลิงก์ไปยังตัวอย่าง ฉันเชื่อว่าฉันเห็นคำแนะนำนี้ในบทความเกี่ยวกับแนวทางปฏิบัติที่ดีของโครงข่ายใยประสาทเทียม (ไม่สามารถหาได้)
MiniQuark

คำตอบ:


13

ฉันคิดว่ามันเกี่ยวกับความอิ่มตัวของเซลล์ประสาท คิดว่าคุณมีฟังก์ชั่นการเปิดใช้งานเช่น sigmoid

ป้อนคำอธิบายรูปภาพที่นี่

หากวาลน้ำหนักของคุณได้รับค่า> = 2 หรือ <= - 2 เซลล์ประสาทของคุณจะไม่เรียนรู้ ดังนั้นหากคุณตัดทอนการกระจายปกติของคุณคุณจะไม่มีปัญหานี้ (อย่างน้อยจากการเริ่มต้น) ตามความแปรปรวนของคุณ ฉันคิดว่านั่นเป็นเหตุผลว่าทำไมจึงควรใช้การตัดแบบปกติโดยทั่วไป


ใช่ว่าเหมาะสมแล้วขอบคุณ ฉันคิดว่าคุณหมายถึง "value> = 2" ไม่ใช่ 1
MiniQuark

ใช่มันควรจะเป็นค่า> = 2
Güngör Basa

4

ประโยชน์ของการใช้การกระจายปกติตัดทอนคือการป้องกันไม่ให้เกิดการสร้าง"เซลล์ประสาทตาย"เนื่องจากการrelu_logitsถูกนำมาใช้ซึ่งจะมีการอธิบายที่นี่

โดยทั่วไปเราควรเริ่มต้นน้ำหนักด้วยเสียงเล็กน้อยเพื่อให้ได้สัดส่วนที่สมมาตรและเพื่อป้องกัน 0 การไล่ระดับสี เนื่องจากเราใช้เซลล์ประสาท ReLU จึงเป็นวิธีปฏิบัติที่ดีในการเริ่มต้นเซลล์เหล่านั้นด้วยอคติเริ่มต้นที่เป็นบวกเล็กน้อยเพื่อหลีกเลี่ยง "เซลล์ประสาทที่ตายแล้ว"


ฉันไม่แน่ใจว่าการใช้ truncated_normal จะป้องกันเซลล์ประสาทที่ตายแล้วได้อย่างไร: มันจะไม่เพิ่ม "อคติเริ่มต้นที่เป็นบวกเล็กน้อย" คุณช่วยอธิบายรายละเอียดได้ไหม?
MiniQuark

1
เพราะ backpropagation จะอัปเดตเซลล์ประสาท 'สด' เท่านั้นโดยมีผลงานที่ไม่ใช่ศูนย์บางส่วนสำหรับการเผยแพร่
Jason
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.