ผมขออธิบายตามแคลคูลัสหลายตัวแปร หากคุณเรียนหลายตัวแปรคุณจะได้ยินว่าเมื่อถึงจุดวิกฤติ (จุดที่การไล่ระดับสีเป็นศูนย์) เงื่อนไขสำหรับจุดวิกฤตินี้จะน้อยที่สุดก็คือเมทริกซ์ของ Hessian นั้นเป็นบวกแน่นอน ในขณะที่ Hessian เป็นเมทริกซ์สมมาตรเราสามารถเบี่ยงเบนมันได้ ถ้าเราเขียนเมทริกซ์ทแยงมุมที่สอดคล้องกับ Hessian เป็น:
Hessian เป็นบวกแน่นอนคือ เทียบเท่ากับ 0
D = ⎡⎣⎢⎢d1⋱dn⎤⎦⎥⎥
d1> 0 , … , dn> 0
ทีนี้ลองคิดถึงฟังก์ชั่นการเรียนรู้แบบต้นทุนลึก ฟังก์ชั่นต้นทุนการเรียนรู้ที่ลึกนั้นขึ้นอยู่กับพารามิเตอร์จำนวนมากในลักษณะที่ซับซ้อนดังนั้น Hessian จะมีการแสดงออกที่ซับซ้อน ด้วยเหตุนี้เราสามารถคิดได้ว่าค่าของนั้นไม่ได้มีความเอนเอียงไปทางค่าลบหรือค่าบวก ด้วยเหตุนี้การกำหนดจุดใด ๆ ที่สำคัญน่าจะเป็นของทุกค่าจะเป็นบวกสามารถสันนิษฐานว่าจะเป็น1/2ยิ่งไปกว่านั้นมันก็สมเหตุสมผลที่จะสมมติว่าค่าของนั้นไม่ได้ขึ้นอยู่กับค่าของๆ เนื่องจากความไม่เชิงเส้นตรงสูงของเมทริกซ์ของ Hessian ดังนั้นเราจะเอาความน่าจะเป็นของพวกมันมาเป็นเหตุการณ์อิสระd1, … , dndผม1 / 2dผมdJ
ด้วยเหตุนี้เมื่อได้รับจุดวิกฤติความน่าจะเป็นที่จะเป็นอย่างน้อยคือ:
P( d1> 0 , … , dn> 0 ) = P( d1> 0 ) ⋅ ⋯ ⋅ P( dn> 0 ) = 12n
ความน่าจะเป็นของจุดวิกฤตใด ๆ ที่เป็นค่าต่ำสุดจะลดลงแบบเอกซ์โปเนนเชียลกับมิติของพื้นที่อินพุต ในการเรียนรู้อย่างลึกพื้นที่นี้มีตั้งแต่ 1,000 ถึงและในทั้งสองกรณีนั้นมีขนาดเล็กอย่างน่าขัน ตอนนี้เรามีความมั่นใจว่าได้รับจุดสำคัญใด ๆ ที่เราเจอมันเป็นมากไม่น่าว่ามันเป็นอย่างน้อย1081 / 2n
แต่ maxima ล่ะ
maxima ของฟังก์ชันคือ minima ของลบฟังก์ชัน ด้วยเหตุผลนี้ข้อโต้แย้งทั้งหมดที่ใช้ก่อนหน้านี้สามารถใช้เพื่อลบฟังก์ชันต้นทุนและเราสรุปได้ว่าทุกจุดวิกฤติมีความน่าจะเป็นที่เป็นจำนวนสูงสุด1 / 2n
ด้วยเหตุนี้เมื่อได้รับจุดวิกฤติความน่าจะเป็นที่จะเป็นจุดอานคือ
P( s ddl e ) = 1 - P( m a x i m u m ) - P( m i n i m u m m ) = 1 - 12n- 12n= 1 - 12n - 1
ซึ่งใกล้เคียงกับ 1 มากถ้ามีขนาดใหญ่พอ (ซึ่งโดยทั่วไปจะเป็นการเรียนรู้ลึก)n