เหตุใดจึงควรเลือกการกำหนดค่าเริ่มต้นของน้ำหนักและอคติประมาณ 0


13

ฉันอ่านสิ่งนี้:

ในการฝึกอบรมเครือข่ายประสาทของเราเราจะเริ่มต้นแต่ละพารามิเตอร์ W (l) ijWij (l) และแต่ละ b (l) ibi (l) เป็นค่าสุ่มเล็ก ๆ ใกล้ศูนย์ (พูดตามปกติ (0, ϵ2) ปกติ (0 , ϵ2) การกระจายตัวสำหรับขนาดเล็ก ϵϵ, พูด 0.01)

จากบทเรียนการเรียนรู้ลึกของ Stanford ที่วรรค 7 ในอัลกอริทึม Backpropagation

สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมการเริ่มต้นของน้ำหนักหรืออคติควรจะอยู่ที่ประมาณ 0 ?

คำตอบ:


11

สมมติว่าการฟื้นฟูข้อมูลที่สมเหตุสมผลอย่างเป็นธรรมความคาดหวังของน้ำหนักควรเป็นศูนย์หรือใกล้เคียง มันอาจจะสมเหตุสมผลในการกำหนดน้ำหนักเริ่มต้นทั้งหมดให้เป็นศูนย์เพราะน้ำหนักเริ่มต้นบวกจะต้องดำเนินต่อไปถ้ามันควรจะเป็นน้ำหนักเชิงลบและวีซ่าในทางกลับกัน อย่างไรก็ตามสิ่งนี้ไม่ทำงาน หากน้ำหนักทั้งหมดเท่ากันพวกเขาทั้งหมดจะมีข้อผิดพลาดเดียวกันและตัวแบบจะไม่เรียนรู้อะไรเลย - ไม่มีแหล่งที่มาของความไม่สมดุลระหว่างเซลล์ประสาท

สิ่งที่เราสามารถทำได้แทนคือให้น้ำหนักใกล้เคียงกับศูนย์มากที่สุด แต่ทำให้น้ำหนักแตกต่างกันโดยการกำหนดค่าเริ่มต้นให้เป็นตัวเลขขนาดเล็กและไม่เป็นศูนย์ นี่คือสิ่งที่แนะนำในบทช่วยสอนที่คุณเชื่อมโยง มันมีข้อได้เปรียบเหมือนกันของการเริ่มต้นทั้งหมดเป็นศูนย์ซึ่งใกล้เคียงกับค่าคาดหวังที่ 'คาดเดาได้ดีที่สุด' แต่สมมาตรก็แตกหักพอสำหรับอัลกอริทึมในการทำงาน

วิธีนี้มีปัญหาเพิ่มเติม ไม่จำเป็นต้องเป็นความจริงที่ว่าจำนวนที่น้อยกว่าจะทำงานได้ดีขึ้นโดยเฉพาะอย่างยิ่งถ้าโครงข่ายประสาทเทียมนั้นลึก การไล่ระดับสีที่คำนวณใน backpropagation เป็นสัดส่วนกับน้ำหนัก น้ำหนักที่น้อยมากนำไปสู่การไล่ระดับสีที่เล็กมากและสามารถนำไปสู่เครือข่ายที่ใช้เวลานานในการฝึกฝนหรือไม่สำเร็จ

ปัญหาที่อาจเกิดขึ้นก็คือการกระจายของผลลัพธ์ของแต่ละเซลล์ประสาทเมื่อใช้ค่าเริ่มต้นแบบสุ่มมีความแปรปรวนที่ใหญ่ขึ้นด้วยอินพุตที่มากขึ้น ขั้นตอนเพิ่มเติมทั่วไปคือการทำให้ความแปรปรวนของนิวรอนเอาท์พุทเป็น 1 โดยการหารน้ำหนักของมันด้วยโดยที่คือจำนวนของอินพุตไปยังเซลล์ประสาท น้ำหนักที่ได้จะกระจายไปตามปกติระหว่างsqrt(d)d[1d,1d]


3

หากคุณตั้งค่าเป็น 0 พวกเขาทั้งหมดจะมีข้อผิดพลาดเดียวกันดังนั้น backprop จะทำให้พวกเขาเท่าเทียมกัน ดังนั้นคุณควรมีการเริ่มต้นแบบสุ่ม

ทำไมประมาณ 0 ฉันคิดว่าโพสต์นี้อาจตอบได้ดี: /stats/47590/what-are-good-initial-weights-inights-in-network เครือข่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.