ทำไมน้ำหนักเริ่มต้นของโครงข่ายประสาทเทียมเริ่มต้นเป็นตัวเลขแบบสุ่ม? ฉันได้อ่านที่ไหนสักแห่งว่าสิ่งนี้ทำเพื่อ "ทำลายความสมมาตร" และทำให้เครือข่ายประสาทเทียมเรียนรู้เร็วขึ้น การทำลายความสมมาตรทำให้การเรียนรู้เร็วขึ้นอย่างไร
จะไม่เริ่มต้นน้ำหนักเป็น 0 เป็นความคิดที่ดีกว่าไหม ด้วยวิธีนี้น้ำหนักจะสามารถค้นหาค่าของพวกเขา (ไม่ว่าจะเป็นบวกหรือลบ) ได้เร็วขึ้น?
มีปรัชญาพื้นฐานอื่น ๆ ที่อยู่เบื้องหลังการสุ่มน้ำหนักนอกเหนือจากการหวังว่าพวกเขาจะใกล้เคียงกับค่าสูงสุดของพวกเขาเมื่อเริ่มต้นหรือไม่