ทำไมน้ำหนักของ Neural Networks เริ่มต้นด้วยตัวเลขสุ่ม?


9

ทำไมน้ำหนักเริ่มต้นของโครงข่ายประสาทเทียมเริ่มต้นเป็นตัวเลขแบบสุ่ม? ฉันได้อ่านที่ไหนสักแห่งว่าสิ่งนี้ทำเพื่อ "ทำลายความสมมาตร" และทำให้เครือข่ายประสาทเทียมเรียนรู้เร็วขึ้น การทำลายความสมมาตรทำให้การเรียนรู้เร็วขึ้นอย่างไร

จะไม่เริ่มต้นน้ำหนักเป็น 0 เป็นความคิดที่ดีกว่าไหม ด้วยวิธีนี้น้ำหนักจะสามารถค้นหาค่าของพวกเขา (ไม่ว่าจะเป็นบวกหรือลบ) ได้เร็วขึ้น?

มีปรัชญาพื้นฐานอื่น ๆ ที่อยู่เบื้องหลังการสุ่มน้ำหนักนอกเหนือจากการหวังว่าพวกเขาจะใกล้เคียงกับค่าสูงสุดของพวกเขาเมื่อเริ่มต้นหรือไม่

คำตอบ:


6

สัญชาตญาณพื้นฐานที่อยู่เบื้องหลังการกำหนดค่าเริ่มต้นเลเยอร์น้ำหนักให้เป็นค่าขนาดเล็ก (และแตกต่างกัน) เป็นเพียงเพื่อให้อคติของระบบแตกหักและค่าน้ำหนักสามารถเคลื่อนที่ไปมา

คุณอาจต้องการให้น้ำหนักเริ่มต้นของคุณมีความแตกต่างและมี "ช่องว่างเล็ก ๆ " อยู่ระหว่างพวกเขา 'ช่องว่าง' นี้จะขยายออกเมื่อคุณเดินตามและบังคับให้น้ำหนักมีขนาดใหญ่ขึ้นในทุก ๆ รอบและสิ่งนี้ช่วย เครือข่ายที่จะมาบรรจบกันเร็วขึ้นนั่นคือกระบวนการเรียนรู้เร็วขึ้น

หากคุณต้องการให้น้ำหนักทั้งหมดคงที่แทนน้ำหนักแต่ละรายการจะได้รับการอัปเดตในอัตราที่ช้ามาก (~ คงที่) และสิ่งนี้จะไม่ได้ผลมากนักโดยเฉพาะถ้าค่าเริ่มต้นอยู่ไกลจากค่าสุดท้าย

หวังว่าจะช่วยได้เรียนรู้ที่สนุกสนาน :)


ดังนั้นสิ่งที่คุณกำลังพูดคือการสุ่มน้ำหนักเริ่มต้นเท่ากับการให้น้ำหนักในแต่ละทิศทางในการเคลื่อนที่ (และช่องว่างเพื่อขยาย)
Shayan RC

ฉันไม่คิดว่ามันจะต้องไปในทิศทางที่ถูกต้องคุณอาจเริ่มด้วยน้ำหนักเริ่มต้นที่ [-0.5, +0.5] ซึ่งค่าสุดท้ายอาจเป็น [+0.5, -0.5] แนวคิดหลักคือมี ค่าที่แตกต่าง ..
Subhayan

เป็นเวลากว่าหนึ่งปีแล้วที่ฉันทำงานกับ NNs ดังนั้นฉันกำลังพูดในลักษณะเป็นคลื่นมือโปรดแจ้งให้เราทราบหากคุณต้องการคณิตศาสตร์ที่อยู่เบื้องหลัง แต่ฉันคิดว่ามันสำคัญกว่าที่จะได้สัญชาตญาณที่นี่คณิตศาสตร์นั้นมีอยู่มากมายทุกที่ .. :)
Subhayan

คณิตศาสตร์ที่อยู่ด้านหลังจะมีประโยชน์ แต่ยิ่งมีประโยชน์มากขึ้นก็จะมีคำแนะนำที่ใช้งานได้จริง: น้ำหนักเริ่มต้นควรมีขนาดเล็กแค่ไหน (10 ^?) พวกมันแตกต่างกันอย่างไรสำหรับเครือข่ายประเภทต่าง ๆ มีหมายเลขมายากลอะไรบ้างที่ใช้ได้กับทุกคน?
Shayan RC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.