ขยายคำตอบของ @Dikran Marsupial ....
แอนนา Choromanska และเพื่อนร่วมงานของเธอในกลุ่มยัน LeCunn ที่ NYU อยู่นี้ในปี 2014 กระดาษ AISTATS ของพวกเขา"การสูญเสียพื้นผิวของหลายตาข่าย" ใช้ทฤษฎีเมทริกซ์สุ่มพร้อมกับการทดลองบางอย่างพวกเขายืนยันว่า:
สำหรับเครือข่ายขนาดใหญ่ minima ในพื้นที่ส่วนใหญ่จะเทียบเท่าและให้ประสิทธิภาพที่คล้ายคลึงกันในชุดทดสอบ
ความน่าจะเป็นในการค้นหาค่าต่ำสุดในท้องถิ่น "ไม่ดี" (ค่าสูง) นั้นไม่เป็นศูนย์สำหรับเครือข่ายขนาดเล็กและลดลงอย่างรวดเร็วด้วยขนาดเครือข่าย
การดิ้นรนเพื่อหาค่าต่ำสุดของโลกในชุดการฝึกอบรม (ตรงข้ามกับหนึ่งในหลาย ๆ อันที่ดีในท้องถิ่น) นั้นไม่ได้มีประโยชน์ในทางปฏิบัติและอาจนำไปสู่การ overfitting
[จากหน้า 2 ของกระดาษ]
ในมุมมองนี้ไม่มีเหตุผลที่ดีที่จะปรับใช้วิธีการที่มีน้ำหนักมากสำหรับการค้นหาค่าต่ำสุดทั่วโลก เวลานั้นน่าจะลองใช้โทโพโลยีเครือข่ายคุณลักษณะชุดข้อมูลและอื่น ๆ ที่ดีกว่า
ที่กล่าวมาผู้คนจำนวนมากคิดเกี่ยวกับการเพิ่มหรือแทนที่เงินดอลลาร์สิงคโปร์ สำหรับเครือข่ายขนาดเล็กพอสมควร (ตามมาตรฐานร่วมสมัย) metahuristics ที่ปรับปรุงแล้วเหล่านี้ดูเหมือนจะทำสิ่งที่Mavrovouniotis และ Yang (2016)แสดงให้เห็นว่าการเพิ่มประสิทธิภาพของฝูงมด + backprop ไม่ได้รับการแก้ไข backprop ในชุดข้อมูลมาตรฐานหลายชุด Rere el al (2015)ใช้การอบแบบจำลองเพื่อฝึกอบรม CNN และพบว่าเริ่มทำงานได้ดีขึ้นในชุดการตรวจสอบความถูกต้อง อย่างไรก็ตามหลังจาก 10 epochs มีเพียงความแตกต่างในการปฏิบัติงานที่มีขนาดเล็กมาก (และไม่ได้ผ่านการทดสอบอย่างมีนัยสำคัญ) เท่านั้น ข้อได้เปรียบของการรวมกันแบบยุคต่อวินาทีที่เร็วขึ้นนั้นถูกชดเชยด้วยเวลาในการคำนวณที่มากขึ้นต่อยุคดังนั้นนี่จึงไม่ใช่ชัยชนะที่ชัดเจนสำหรับการอบแบบจำลอง
เป็นไปได้ว่าฮิวริสติกเหล่านี้ทำงานได้ดีกว่าในการเริ่มต้นเครือข่ายและเมื่อมีการชี้เส้นทางที่ถูกต้องเครื่องมือเพิ่มประสิทธิภาพใด ๆ ก็จะทำเช่นนั้น Sutskever และคณะ (2013) จากกลุ่มเจฟฟ์ฮินตันของเถียงอะไรเช่นนี้ในของพวกเขากระดาษ ICML 2013