ในมุ้งประสาททำไมใช้วิธีการไล่ระดับสีมากกว่า metaheuristics อื่น ๆ ?


20

ในการฝึกอบรมโครงข่ายประสาทเทียมที่ลึกและตื้นเหตุใดจึงใช้วิธีการไล่ระดับสี (เช่นการไล่ระดับสีเนสโตฟนิวตัน - ราฟสัน) ที่ใช้กันโดยทั่วไป

ฉันหมายถึงวิธีการต่าง ๆ เช่นการจำลองการหลอมการเพิ่มประสิทธิภาพของฝูงมด ฯลฯ ซึ่งได้รับการพัฒนาเพื่อหลีกเลี่ยงการติดอยู่ใน minima ท้องถิ่น


คำตอบ:


13

ขยายคำตอบของ @Dikran Marsupial ....

แอนนา Choromanska และเพื่อนร่วมงานของเธอในกลุ่มยัน LeCunn ที่ NYU อยู่นี้ในปี 2014 กระดาษ AISTATS ของพวกเขา"การสูญเสียพื้นผิวของหลายตาข่าย" ใช้ทฤษฎีเมทริกซ์สุ่มพร้อมกับการทดลองบางอย่างพวกเขายืนยันว่า:

  • สำหรับเครือข่ายขนาดใหญ่ minima ในพื้นที่ส่วนใหญ่จะเทียบเท่าและให้ประสิทธิภาพที่คล้ายคลึงกันในชุดทดสอบ

  • ความน่าจะเป็นในการค้นหาค่าต่ำสุดในท้องถิ่น "ไม่ดี" (ค่าสูง) นั้นไม่เป็นศูนย์สำหรับเครือข่ายขนาดเล็กและลดลงอย่างรวดเร็วด้วยขนาดเครือข่าย

  • การดิ้นรนเพื่อหาค่าต่ำสุดของโลกในชุดการฝึกอบรม (ตรงข้ามกับหนึ่งในหลาย ๆ อันที่ดีในท้องถิ่น) นั้นไม่ได้มีประโยชน์ในทางปฏิบัติและอาจนำไปสู่การ overfitting

[จากหน้า 2 ของกระดาษ]

ในมุมมองนี้ไม่มีเหตุผลที่ดีที่จะปรับใช้วิธีการที่มีน้ำหนักมากสำหรับการค้นหาค่าต่ำสุดทั่วโลก เวลานั้นน่าจะลองใช้โทโพโลยีเครือข่ายคุณลักษณะชุดข้อมูลและอื่น ๆ ที่ดีกว่า

ที่กล่าวมาผู้คนจำนวนมากคิดเกี่ยวกับการเพิ่มหรือแทนที่เงินดอลลาร์สิงคโปร์ สำหรับเครือข่ายขนาดเล็กพอสมควร (ตามมาตรฐานร่วมสมัย) metahuristics ที่ปรับปรุงแล้วเหล่านี้ดูเหมือนจะทำสิ่งที่Mavrovouniotis และ Yang (2016)แสดงให้เห็นว่าการเพิ่มประสิทธิภาพของฝูงมด + backprop ไม่ได้รับการแก้ไข backprop ในชุดข้อมูลมาตรฐานหลายชุด Rere el al (2015)ใช้การอบแบบจำลองเพื่อฝึกอบรม CNN และพบว่าเริ่มทำงานได้ดีขึ้นในชุดการตรวจสอบความถูกต้อง อย่างไรก็ตามหลังจาก 10 epochs มีเพียงความแตกต่างในการปฏิบัติงานที่มีขนาดเล็กมาก (และไม่ได้ผ่านการทดสอบอย่างมีนัยสำคัญ) เท่านั้น ข้อได้เปรียบของการรวมกันแบบยุคต่อวินาทีที่เร็วขึ้นนั้นถูกชดเชยด้วยเวลาในการคำนวณที่มากขึ้นต่อยุคดังนั้นนี่จึงไม่ใช่ชัยชนะที่ชัดเจนสำหรับการอบแบบจำลอง

เป็นไปได้ว่าฮิวริสติกเหล่านี้ทำงานได้ดีกว่าในการเริ่มต้นเครือข่ายและเมื่อมีการชี้เส้นทางที่ถูกต้องเครื่องมือเพิ่มประสิทธิภาพใด ๆ ก็จะทำเช่นนั้น Sutskever และคณะ (2013) จากกลุ่มเจฟฟ์ฮินตันของเถียงอะไรเช่นนี้ในของพวกเขากระดาษ ICML 2013


17

Local minima นั้นไม่ค่อยมีปัญหากับอวนของระบบประสาทตามที่แนะนำบ่อยนัก minima ท้องถิ่นบางอันเกิดจากความสมมาตรของเครือข่าย (เช่นคุณสามารถเปลี่ยนแปลงเซลล์ประสาทที่ซ่อนอยู่และออกจากฟังก์ชันได้ของเครือข่ายไม่เปลี่ยนแปลง สิ่งที่จำเป็นต้องมีก็คือการหาจุดต่ำสุดในท้องถิ่นที่ดีกว่าระดับโลกขั้นต่ำ เมื่อมันเกิดขึ้นการเพิ่มประสิทธิภาพแบบจำลองที่มีความยืดหยุ่นสูงเช่นเครือข่ายประสาทมีแนวโน้มที่จะเป็นสูตรสำหรับการ overfitting ข้อมูลดังนั้นการใช้การจำลองการอบเพื่อหาเกณฑ์ขั้นต่ำของการฝึกอบรมทั่วโลกนั้นน่าจะทำให้โครงข่ายประสาทแย่ลง ประสิทธิภาพการวางนัยทั่วไปกว่าการฝึกอบรมโดยการไล่ระดับสีที่ลงท้ายด้วย minima ท้องถิ่น หากมีการใช้วิธีการเพิ่มประสิทธิภาพแบบฮิวริสติกเหล่านี้ฉันจะแนะนำให้รวมถึงคำศัพท์ทั่วไปเพื่อจำกัดความซับซ้อนของแบบจำลอง

... หรืออีกวิธีหนึ่งใช้เช่นวิธีเคอร์เนลหรือแบบจำลองฟังก์ชันพื้นฐานรัศมีซึ่งน่าจะเป็นปัญหาน้อยกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.