ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”


45

ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า:

เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม

ความเชื่อนี้มาจากไหน


14
ฉันจะแปลกใจถ้านี่ไม่ใช่การค้นพบเชิงประจักษ์
usεr11852พูดว่า Reinstate Monic

คำตอบ:


69

บทความล่าสุดThe Loss Surfaces of Multilayer Networksนำเสนอคำอธิบายที่เป็นไปได้สำหรับเรื่องนี้ จากนามธรรม (ตัวหนาเป็นของฉัน):

"เราคาดการณ์ว่าทั้งการจำลองการหลอมและ SGD มาบรรจบกันกับกลุ่มของจุดวิกฤตต่ำและจุดวิกฤติทั้งหมดพบว่ามีคุณภาพต่ำที่สุดในท้องถิ่นที่วัดจากข้อผิดพลาดในการทดสอบสิ่งนี้เน้นความแตกต่างที่สำคัญระหว่างเครือข่ายขนาดใหญ่และขนาดเล็ก ที่มีคุณภาพไม่ดีหลังท้องถิ่นน้อยมีที่ไม่ใช่ศูนย์น่าจะเป็นของการกู้คืน. สุดท้ายเราพิสูจน์ให้เห็นว่าการกู้คืนขั้นต่ำทั่วโลกจะกลายเป็นยากขึ้นขณะที่การเพิ่มขึ้นของเครือข่ายขนาดและว่าในทางปฏิบัติที่ไม่เกี่ยวข้องเป็นขั้นต่ำทั่วโลกมักจะนำไปสู่การ overfitting ."

ผู้มีอิทธิพลจำนวนมากในการเรียนรู้อย่างลึกซึ้ง (Yann LeCunn และ Yoshua Bengio ให้ชื่อไม่กี่คน) และนักวิจัยบางคนมาเพิ่มเติมจากมุมมองทางคณิตศาสตร์ (Rong Ge และผู้ทำงานร่วมกันของ Sanjeev Arora) ได้พูดคุยและสำรวจแนวคิดเหล่านี้

ในเอกสารอ้างอิงข้างต้นให้ดูรูปที่ 3 ซึ่งแสดงปรากฏการณ์แถบ / ความเข้มข้นของค่า minima ท้องถิ่นเนื่องจากมุ้งมีหน่วยที่ซ่อนอยู่มากกว่า แถบ / ความเข้มข้นแสดงถึงหลักฐานเชิงประจักษ์บางประการที่ว่าสำหรับแบบจำลองที่ลึกกว่าหรือใหญ่กว่านั้น minima ในพื้นที่คือ "ดีพอ" เนื่องจากค่าการสูญเสียของพวกมันใกล้เคียงกัน และที่สำคัญที่สุดคือพวกเขามีการสูญเสียที่ใกล้เคียงกับค่าต่ำสุดของโลกเนื่องจากตัวแบบมีความซับซ้อนมากขึ้น (ในกรณีนี้กว้างขึ้น แต่ในทางปฏิบัติยิ่งลึกขึ้น)

ยิ่งกว่านั้นพวกเขาใช้แบบจำลองแก้วหมุนซึ่งพวกเขายังระบุว่าเป็นเพียงแบบจำลองและไม่จำเป็นต้องบ่งบอกถึงภาพที่แท้จริงเพื่อแสดงให้เห็นว่าการเข้าถึงตัวลดขนาดภาพทั่วโลกจาก minima ท้องถิ่นอาจใช้เวลานานมาก:

"เพื่อที่จะหาจุดต่ำสุดของการโกหกที่ต่ำมากขึ้นเราจะต้องผ่านจุดอานม้าดังนั้นเราจะต้องขึ้นไปอย่างน้อยจนถึงระดับที่มีจุดอานจำนวนเท่ากันเพื่อที่จะมีโอกาสพอสมควรในการค้นหาเส้นทางที่อาจใช้เวลา เราไปสู่อีกขั้นต่ำในท้องถิ่นกระบวนการนี้ใช้เวลานานมากในการอธิบายดังนั้นในทางปฏิบัติการค้นหาขั้นต่ำทั่วโลกไม่สามารถทำได้ "

การวิจัย Rong Ge มีศูนย์กลางอยู่ที่การทำลายจุดอาน Yoshua Bengio และผู้ร่วมงานของเขาได้ตั้งสมมติฐาน Saddle Point ที่เป็นตัวหนามาก:

ที่นี่เราโต้เถียงตามผลลัพธ์จากฟิสิกส์สถิติทฤษฎีเมทริกซ์สุ่มทฤษฎีเครือข่ายประสาทและหลักฐานเชิงประจักษ์ว่าปัญหาที่ลึกและลึกซึ้งยิ่งขึ้นเกิดขึ้นจากการแพร่กระจายของจุดอานไม่ใช่จุดต่ำสุดของท้องถิ่นโดยเฉพาะอย่างยิ่งในปัญหามิติที่น่าสนใจ . จุดอานเช่นนี้ล้อมรอบด้วยที่ราบสูงข้อผิดพลาดสูงที่สามารถชะลอการเรียนรู้ลงได้อย่างมาก

แหล่งที่มาที่นี่: การระบุและโจมตีปัญหาจุดอานในการเพิ่มประสิทธิภาพแบบ non-convex ในระดับสูง

ในระดับหนึ่งแนวทางสองข้อข้างต้นนั้นไม่เหมือนกัน (สมมติฐานของ Saddle Point อาจถามว่าอะไรคือ minima ในพื้นที่จริงและอะไรคือจุดอานปรับอากาศที่ไม่ดีที่มีพื้นที่ที่ราบสูงที่ยาวมาก? แนวคิดเบื้องหลังสมมติฐานของ Saddle Point คือมันเป็นไปได้ที่จะออกแบบวิธีการปรับให้เหมาะสมเพื่อเจาะผ่านจุดอานเช่น Saddle-Free Newton จากบทความ Bengio เพื่อเพิ่มความเร็วในการบรรจบกันและอาจถึงจุดสูงสุดทั่วโลก บทความ Multilayer Loss Surface ฉบับแรกนั้นไม่เกี่ยวข้องกับการเข้าถึงระดับโลกที่เหมาะสมที่สุดและเชื่อว่ามันจะมีคุณสมบัติที่ไม่เหมาะสม บทความทั้งสองใช้แนวคิดทางฟิสิกส์เชิงสถิติและโมเดลหมุนกระจก

แต่พวกเขามีความเกี่ยวข้องในบทความทั้งสองเชื่อว่าเพื่อที่จะไปให้ถึง minimizer ทั่วโลกเราต้องเอาชนะความท้าทายในการเพิ่มประสิทธิภาพของจุดอาน บทความแรกเพียงแค่เชื่อว่า minima ท้องถิ่นดีพอ

มันค่อนข้างยุติธรรมที่จะสงสัยว่าวิธีการโมเมนตัมและอัลกอริธึมการเพิ่มประสิทธิภาพใหม่อื่น ๆ ซึ่งสามารถประมาณคุณสมบัติความโค้งลำดับที่ 2 บางส่วนสามารถหลบหนีจุดอาน ภาพเคลื่อนไหวที่มีชื่อเสียงโดยอเล็กซ์ราดที่นี่

เพื่อตอบคำถามของคุณ: "ความเชื่อนี้มาจากไหน" โดยส่วนตัวแล้วฉันคิดว่ามันมาจากข้อเท็จจริงที่ว่ามันเป็นไปได้ที่จะใช้เมล็ดพันธุ์แบบสุ่มเพื่อเรียนรู้น้ำหนักที่แตกต่างกัน แต่ตาข่ายที่เกี่ยวข้องนั้นมีประสิทธิภาพเชิงปริมาณที่คล้ายคลึงกัน ตัวอย่างเช่นหากคุณตั้งค่าเมล็ดสุ่มสองแบบสำหรับการเริ่มต้นน้ำหนัก Glorot คุณอาจจะได้เรียนรู้น้ำหนักที่แตกต่างกัน แต่ถ้าคุณฝึกอบรมโดยใช้วิธีการเพิ่มประสิทธิภาพที่คล้ายกันมุ้งจะมีประสิทธิภาพคล้ายกัน หนึ่งในความเชื่อของชาวบ้านร่วมกันคือการเพิ่มประสิทธิภาพภูมิทัศน์จะคล้ายกับที่ของกล่องไข่โพสต์บล็อกที่ดีอื่นเกี่ยวกับเรื่องนี้ที่นี่: ไม่มีท้องถิ่นน้อยมากขึ้น? ด้วยการเปรียบเทียบกล่องไข่

แก้ไข: ฉันแค่ต้องการให้ชัดเจนว่าการเปรียบเทียบกล่องไข่นั้นไม่เป็นความจริงมิฉะนั้นจะไม่จำเป็นต้องมีโมเมนตัมหรือเทคนิคการเพิ่มประสิทธิภาพขั้นสูงอื่น ๆ แต่เป็นที่ทราบกันดีว่า SGD ไม่ทำงานเช่นเดียวกับ SGD + โมเมนตัมหรืออัลกอริธึมการปรับให้เหมาะสมที่สุดที่ทันสมัยอาจเนื่องมาจากจุดอานม้าที่มีอยู่


14
+1 คำตอบที่ให้ข้อมูลและมีอำนาจอย่างน่าประทับใจ - ในย่อหน้าที่เข้าใจง่ายเพียงไม่กี่ย่อหน้าดูเหมือนว่าจะรวบรวมแนวคิดและเส้นทางปัจจุบันภายในฟิลด์ย่อยที่สำคัญ
whuber

ขอบคุณสำหรับคำตอบ. เนื่องจากคุณพูดถึง Yann LeCun คุณอาจจะชี้ให้เห็นถึงการอ้างอิงโดยเฉพาะของเขาที่พูดถึงแนวคิดเหล่านี้หรือคล้ายกันได้หรือไม่?
John Donn

2
เฮ้จอห์น: บทความ Surface Loss ของ Multilayer Nets ที่ฉันอ้างอิงในโพสต์นั้นเขียนโดย Yann อีกบทความที่คล้ายกันที่ Yann ร่วมประพันธ์คือการสำรวจภูมิทัศน์มิติสูง บทความสองบทความนี้คล้ายกันมากบทความที่ฉันอ้างอิงตอนแรกดูเหมือนจะเป็นที่นิยมมากขึ้น
อินดี้ AI

ลิงก์ "ไม่มีท้องถิ่นน้อยที่สุด" จะตายไป จากการค้นหา google อย่างรวดเร็วฉันไม่สามารถค้นหาโพสต์บล็อกที่อ้างถึงได้ บล็อกโพสต์ออฟไลน์หรือไม่ หรือเพียงแค่ย้าย?
LMB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.