คะแนน minima เทียบกับท้องถิ่นในการเรียนรู้อย่างลึกซึ้ง


18

ฉันได้ยินแอนดรูว์งะ (ในวิดีโอฉันโชคร้ายที่ไม่สามารถหาได้อีกแล้ว) พูดคุยเกี่ยวกับวิธีการเข้าใจความเข้าใจในปัญหาการเรียนรู้ที่ลึกลงไปในความรู้สึกที่พวกเขาถูกมองว่าเป็นปัญหาน้อยกว่าเพราะในพื้นที่มิติสูง การเรียนรู้เชิงลึก) จุดวิกฤติมีแนวโน้มที่จะเป็นจุดอานม้าหรือที่ราบสูงมากกว่าจุดเยือกแข็งในท้องถิ่น

ฉันเคยเห็นเอกสาร (เช่นนี้ ) ที่กล่าวถึงสมมติฐานภายใต้ "ขั้นต่ำในท้องถิ่นทุกรายการเป็นขั้นต่ำทั่วโลก" สมมติฐานเหล่านี้ล้วน แต่เป็นเรื่องทางเทคนิค แต่จากสิ่งที่ฉันเข้าใจว่าพวกเขามีแนวโน้มที่จะกำหนดโครงสร้างในโครงข่ายประสาทที่ทำให้มันค่อนข้างเป็นเส้นตรง

มันเป็นข้ออ้างที่ถูกต้องหรือไม่ว่าในการเรียนรู้อย่างลึกซึ้ง (รวมถึงสถาปัตยกรรมที่ไม่ใช่เชิงเส้น) ที่ราบสูงมักจะมีขนาดเล็กกว่าท้องถิ่นหรือไม่? และถ้าเป็นเช่นนั้นมีปรีชาญาณ

มีอะไรพิเศษเกี่ยวกับการเรียนรู้อย่างลึกซึ้งและจุดอานม้าหรือไม่?


12
เมื่อพูดถึงสัญชาตญาณทางคณิตศาสตร์สำหรับสาเหตุที่จุดอานน่าจะเป็นมากกว่าจุดต่ำสุดในท้องถิ่นฉันจะคิดถึงเรื่องนี้ในแง่ของคุณสมบัติ เพื่อให้ได้ค่าต่ำสุดในระดับท้องถิ่นจะต้องมีค่าต่ำสุดในทุกทิศทาง ในทางตรงกันข้ามสำหรับจุดอานทิศทางเดียวเท่านั้นจะต้องแตกต่างจากทิศทางอื่น มีความเป็นไปได้มากกว่าที่ 1 หรือมากกว่านั้นจะมีพฤติกรรมที่แตกต่างกันเมื่อเปรียบเทียบกับพฤติกรรมเดียวกันในทุกทิศทาง
เปาโล

3
ขอบคุณตอนนี้คุณพูดแล้วมันเป็นเรื่องที่ชัดเจน ... นี่คือการอภิปรายที่น่าสนใจของหัวข้อ
oW_

4
Andrew Ng มีวิดีโอเกี่ยวกับ "ปัญหาของ minima ท้องถิ่น" ในสัปดาห์ที่ 2 ของหลักสูตร Coursera ของเขา "การปรับปรุงเครือข่าย Neural Deep: การปรับแต่งพารามิเตอร์ Hyperparameter, การทำให้เป็นมาตรฐานและการเพิ่มประสิทธิภาพ" บางทีมันอาจเป็นสิ่งที่คุณกำลังมองหา
mjul

ดูที่นี่
สื่อ

คำตอบ:


7

นี่เป็นเพียงการพยายามถ่ายทอดสัญชาตญาณของฉันนั่นคือไม่มีความรุนแรง สิ่งที่มีจุดอานคือพวกเขาเป็นประเภทที่ดีที่สุดซึ่งรวมการรวมกันของ minima และ maxima เนื่องจากจำนวนมิติมีขนาดใหญ่มากพร้อมการเรียนรู้อย่างลึกซึ้งความน่าจะเป็นที่เหมาะสมที่สุดประกอบด้วยการรวมกันของ minima ต่ำมาก ซึ่งหมายความว่า 'ติด' ในระดับท้องถิ่นน้อย เมื่อมีความเสี่ยงที่จะทำให้เกิดการขยายใหญ่เกินไปมันยากที่จะ 'ติด' ในจุดอานเพราะคุณสามารถ 'เลื่อนลงหนึ่งในมิติ' ฉันคิดว่าวิดีโอ Andrew Ng ที่คุณอ้างถึงนั้นมาจากหลักสูตร Coursera เกี่ยวกับการเรียนรู้ลึกโดยเขา


13

ผมขออธิบายตามแคลคูลัสหลายตัวแปร หากคุณเรียนหลายตัวแปรคุณจะได้ยินว่าเมื่อถึงจุดวิกฤติ (จุดที่การไล่ระดับสีเป็นศูนย์) เงื่อนไขสำหรับจุดวิกฤตินี้จะน้อยที่สุดก็คือเมทริกซ์ของ Hessian นั้นเป็นบวกแน่นอน ในขณะที่ Hessian เป็นเมทริกซ์สมมาตรเราสามารถเบี่ยงเบนมันได้ ถ้าเราเขียนเมทริกซ์ทแยงมุมที่สอดคล้องกับ Hessian เป็น: Hessian เป็นบวกแน่นอนคือ เทียบเท่ากับ 0

D=[d1dn]
d1>0,...,dn>0

ทีนี้ลองคิดถึงฟังก์ชั่นการเรียนรู้แบบต้นทุนลึก ฟังก์ชั่นต้นทุนการเรียนรู้ที่ลึกนั้นขึ้นอยู่กับพารามิเตอร์จำนวนมากในลักษณะที่ซับซ้อนดังนั้น Hessian จะมีการแสดงออกที่ซับซ้อน ด้วยเหตุนี้เราสามารถคิดได้ว่าค่าของนั้นไม่ได้มีความเอนเอียงไปทางค่าลบหรือค่าบวก ด้วยเหตุนี้การกำหนดจุดใด ๆ ที่สำคัญน่าจะเป็นของทุกค่าจะเป็นบวกสามารถสันนิษฐานว่าจะเป็น1/2ยิ่งไปกว่านั้นมันก็สมเหตุสมผลที่จะสมมติว่าค่าของนั้นไม่ได้ขึ้นอยู่กับค่าของๆ เนื่องจากความไม่เชิงเส้นตรงสูงของเมทริกซ์ของ Hessian ดังนั้นเราจะเอาความน่าจะเป็นของพวกมันมาเป็นเหตุการณ์อิสระd1,...,dndผม1/2dผมdJ

ด้วยเหตุนี้เมื่อได้รับจุดวิกฤติความน่าจะเป็นที่จะเป็นอย่างน้อยคือ:

P(d1>0,...,dn>0)=P(d1>0)P(dn>0)=12n

ความน่าจะเป็นของจุดวิกฤตใด ๆ ที่เป็นค่าต่ำสุดจะลดลงแบบเอกซ์โปเนนเชียลกับมิติของพื้นที่อินพุต ในการเรียนรู้อย่างลึกพื้นที่นี้มีตั้งแต่ 1,000 ถึงและในทั้งสองกรณีนั้นมีขนาดเล็กอย่างน่าขัน ตอนนี้เรามีความมั่นใจว่าได้รับจุดสำคัญใด ๆ ที่เราเจอมันเป็นมากไม่น่าว่ามันเป็นอย่างน้อย1081/2n

แต่ maxima ล่ะ

maxima ของฟังก์ชันคือ minima ของลบฟังก์ชัน ด้วยเหตุผลนี้ข้อโต้แย้งทั้งหมดที่ใช้ก่อนหน้านี้สามารถใช้เพื่อลบฟังก์ชันต้นทุนและเราสรุปได้ว่าทุกจุดวิกฤติมีความน่าจะเป็นที่เป็นจำนวนสูงสุด1/2n

ด้วยเหตุนี้เมื่อได้รับจุดวิกฤติความน่าจะเป็นที่จะเป็นจุดอานคือ

P(saddล.อี)=1-P(ม.axผมม.ยูม.)-P(ม.ผมnผมม.ยูม.)=1-12n-12n=1-12n-1

ซึ่งใกล้เคียงกับ 1 มากถ้ามีขนาดใหญ่พอ (ซึ่งโดยทั่วไปจะเป็นการเรียนรู้ลึก)n

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.