อะไรคือความแตกต่างระหว่างการไล่ระดับสีแบบโมเมนตัมที่มีโมเมนตัมและการไล่ระดับสีแบบเร่งรัดของ Nesterov

48

ดังนั้นการไล่ระดับสีตามโมเมนตัมจึงทำงานดังนี้:

$v=self.momentum*m-lr*g$

โดยที่คือการปรับปรุงน้ำหนักก่อนหน้านี้และคือการไล่ระดับสีในปัจจุบันที่เกี่ยวกับพารามิเตอร์ ,คืออัตราการเรียนรู้และเป็นค่าคงที่ $m$ $g$ $p$ $lr$ $self.momentum$

$p_{new} = p + v = p + self.momentum * m - lr * g$

และโคตรลาดชันของ Nesterov ที่เร่งได้ดังนี้

$p_{new} = p + self.momentum * v - lr * g$

ซึ่งเทียบเท่ากับ:

$p_{new} = p + self.momentum * (self.momentum * m - lr * g ) - lr * g$

หรือ

$p_{new} = p + self.momentum^2 * m - (1 + self.momentum) * lr * g$

แหล่งที่มา: https://github.com/fchollet/keras/blob/master/keras/optimizers.py

ดังนั้นสำหรับฉันดูเหมือนว่าเชื้อสายการไล่ระดับสีเร่งความเร็วของ Nesterov ให้น้ำหนักมากกว่าคำ lr * g ในเทอมการเปลี่ยนน้ำหนักที่แปรปรวน m (เทียบกับโมเมนตัมแบบเก่า) การตีความนี้ถูกต้องหรือไม่

optimization gradient-descent

— แอปเปิ้ลไซเดอร์
แหล่งที่มา

7

ขอให้คุณพิมพ์ถามมากเกินไปไหม

L A T E X

$\LaTeX$

— Rodrigo de Azevedo

35

คำตอบของ Arech เกี่ยวกับโมเมนตัมของ Nesterov นั้นถูกต้อง แต่รหัสนั้นทำสิ่งเดียวกัน ดังนั้นในเรื่องนี้วิธี Nesterov จะให้น้ำหนักมากขึ้นกับเทอมและน้ำหนักน้อยกว่าในเทอม $lr \cdot g$ $v$

เพื่อแสดงให้เห็นว่าทำไมการดำเนิน Keras' ถูกต้องผมจะยืมเจฟฟรีย์ฮินตันของตัวอย่าง

วิธี Nesterov ใช้วิธี "การพนัน -> การแก้ไข" เวกเตอร์สีน้ำตาลคือ (การพนัน / กระโดด) เวกเตอร์สีแดงคือ (การแก้ไข) และเวกเตอร์สีเขียวคือ (ซึ่งเราควรย้ายไป) เป็นฟังก์ชันไล่ระดับสี
$v' = m \cdot v - lr \cdot \nabla(w+m \cdot v)$
$w' = w + v'$
$m \cdot v$ $-lr \cdot \nabla(w+m \cdot v)$ $m \cdot v-lr \cdot \nabla(w+m \cdot v)$ $\nabla(\cdot)$

รหัสที่มีลักษณะแตกต่างกันเพราะมันเคลื่อนโดยเวกเตอร์สีน้ำตาลแทนของเวกเตอร์สีเขียวเป็นวิธี Nesterov เพียง แต่ต้องใช้การประเมินแทน(w) ดังนั้นในแต่ละขั้นตอนที่เราต้องการ $\nabla(w+m \cdot v) =: g$ $\nabla(w)$

กลับไปยังที่ที่เราอยู่ $(1 \rightarrow 0)$
ติดตามเวกเตอร์สีเขียวไปยังที่ที่เราควรจะเป็น $(0 \rightarrow 2)$
ทำการพนันอีกครั้ง $(2 \rightarrow 3)$

รหัสของ Keras เขียนโดยย่อคือและเราทำการคำนวณบางอย่าง $p' = p + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g$

$\begin{align} p' &= p - m \cdot v + m \cdot v + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g\\ &= p - m \cdot v + m \cdot v - lr \cdot g + m \cdot (m \cdot v - lr \cdot g)\\ &= p - m \cdot v + (m \cdot v-lr \cdot g) + m \cdot (m \cdot v-lr \cdot g) \end{align}$

และที่ว่า3 ที่จริงรหัสเดิมใช้เส้นทางที่สั้นลง3 $1 \rightarrow 0 \rightarrow 2 \rightarrow 3$ $1 \rightarrow 2 \rightarrow 3$

มูลค่าโดยประมาณจริง (เวกเตอร์สีเขียว) ควรเป็นซึ่งควรใกล้เคียงกับเมื่อการเรียนรู้มาบรรจบกัน $p - m \cdot v$ $p$

— dontloo
แหล่งที่มา

2

@youkaichao ทดลองใช้youtube.com/watch?v=LdkkZglLZ0Q

— dontloo

13

สำหรับฉันแล้วดูเหมือนว่าคำถามของ OP ได้ตอบไปแล้ว แต่ฉันจะพยายามอธิบายอีกครั้งเกี่ยวกับแรงผลักดันและความแตกต่างระหว่าง Classical Momentum (CM) และ Nastov's Accelerated Gradient (NAG)

tl; dr
เพียงข้ามไปที่ภาพในตอนท้าย
เหตุผลของ NAG_ball เป็นอีกส่วนที่สำคัญ แต่ฉันไม่แน่ใจว่ามันจะง่ายต่อการเข้าใจหากไม่มีที่เหลือทั้งหมด

CM และจู้จี้มีทั้งสองวิธีการเลือกเวกเตอร์ต่อไปในพารามิเตอร์พื้นที่เพื่อหาต่ำสุดของฟังก์ชันtheta) $\theta$ $f(\theta)$

ในข่าวอื่น ๆ เมื่อเร็ว ๆ นี้ทั้งสองลูกตื่นเต้นป่าปรากฏ:

มันจะเปิดออก (ตามสังเกตพฤติกรรมของลูกและเป็นไปตามกระดาษที่เกี่ยวกับความสำคัญของการเริ่มต้นและแรงผลักดันในการเรียนรู้ลึกที่อธิบายทั้ง CM และจู้จี้ในส่วนที่ 2) ที่แต่ละพฤติกรรมลูกเหมือนหนึ่งในวิธีการเหล่านี้ , และเราจะเรียกพวกเขาว่า "CM_ball" และ "NAG_ball":
(NAG_ball กำลังยิ้มเพราะเขาเพิ่งดูจุดจบของบทบรรยายที่ 6c - วิธีการโมเมนตัมโดย Geoffrey Hinton กับ Nitish Srivastava และ Kevin Swerskyมากกว่าเดิม พฤติกรรมของเขานำไปสู่การค้นหาขั้นต่ำได้เร็วขึ้น)

นี่คือลักษณะการทำงานของลูก:

แทนที่จะกลิ้งเหมือนลูกบอลธรรมดาพวกมันกระโดดไปมาระหว่างจุดในพื้นที่พารามิเตอร์
ให้เป็นตำแหน่งที่ -th ของลูกบอลในพื้นที่พารามิเตอร์และให้เป็นการกระโดด -th ของลูกบอล จากนั้นกระโดดระหว่างจุดในพื้นที่พารามิเตอร์สามารถอธิบายได้ด้วย\ $\theta_t$ $t$ $v_t$ $t$ $\theta_t=\theta_{t-1}+v_t$
ไม่เพียง แต่พวกเขากระโดดแทนที่จะเป็นม้วน แต่ยังมีการกระโดดพิเศษ: การกระโดดแต่ละครั้งเป็นจริงการกระโดดสองครั้งซึ่งเป็นองค์ประกอบของการกระโดดสองครั้ง $v_t$
- Momentum Jump - การกระโดดที่ใช้โมเมนตัมจากซึ่งเป็นการกระโดดครั้งสุดท้าย ส่วนเล็ก ๆ ของโมเมนตัมของจะหายไปเนื่องจากแรงเสียดทานกับอากาศ ให้เป็นเศษส่วนของโมเมนตัมที่เหลือ (ลูกบอลค่อนข้างแอโรไดนามิกตามปกติแล้ว ) แล้วกระโดดโมเมนตัมเท่ากับ{t-1} (ทั้งใน CM และ NAGเป็นพารามิเตอร์ที่เรียกว่า "สัมประสิทธิ์โมเมนตัม") $v_{t-1}$
  $v_{t-1}$
  $\mu$ $0.9 \le \mu <1$ $\mu v_{t-1}$
  $\mu$
- Slope Jump - การกระโดดที่เตือนฉันถึงผลของการวางลูกบอลปกติบนพื้นผิว - ลูกบอลเริ่มกลิ้งไปในทิศทางที่ลาดชันชันลงล่างในขณะที่ชันชันการเร่งจะยิ่งใหญ่ขึ้น
  ในทำนองเดียวกัน Slope Jump นั้นอยู่ในทิศทางของความชันที่ลาดชันลง (ทิศทางตรงข้ามกับการไล่ระดับสี) และยิ่งการไล่ระดับสีมีขนาดใหญ่เท่าไร
  Slope Jump ยังขึ้นอยู่กับระดับความกระตือรือร้นของลูกบอล (ตามธรรมชาติ ): ยิ่งอยากเล่นลูกบอลมากเท่าไหร่ (ทั้งใน CM และ NAGเป็นพารามิเตอร์ที่เรียกว่า "อัตราการเรียนรู้") ให้ $\epsilon$ $\epsilon>0$
  $\epsilon$
  $g$ เป็นระดับความลาดชันในตำแหน่งเริ่มต้นของ Slope Jump แล้วลาดกระโดดเท่ากับกรัม $-\epsilon g$
ดังนั้นสำหรับทั้งสองลูก Double Jump มีค่าเท่ากับ: ความแตกต่างเพียงอย่างเดียวระหว่างลูกบอลคือลำดับของการกระโดดสองครั้งใน Double Jump $v_{t} = μ v_{t - 1} - ϵ g$ $v_t=\mu v_{t-1} -\epsilon g$
CM_ball ไม่คิดว่ามันมีความสำคัญดังนั้นเขาจึงตัดสินใจเริ่มต้นด้วย Slope Jump เสมอ
ดังนั้น Double Jump ของ CM_ball คือ: $v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1})$ $v_{t}=\mu v_{t-1}-\epsilon\nabla f\left(\theta_{t-1}\right)$
ในทางกลับกัน NAG_ball คิดเกี่ยวกับมันซักพักแล้วตัดสินใจเริ่มต้นด้วย Momentum Jump เสมอ
ดังนั้นการกระโดดสองครั้งของ NAG_ball คือ:
$v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1} + μ v_{t - 1})$

เหตุผลของ NAG_ball
- ไม่ว่าการกระโดดจะมาก่อนอะไรโมเมนตัมการกระโดดของฉันจะเป็นเหมือนเดิม
  ดังนั้นฉันควรพิจารณาสถานการณ์ราวกับว่าฉันได้ทำโมเมนตัมกระโดดของฉันแล้วและฉันกำลังจะทำให้ลาดชันของฉัน
- ตอนนี้ Slope Jump ของฉันกำลังจะเริ่มจากที่นี่ แต่ฉันสามารถเลือกได้ว่าจะคำนวณว่า Slope Jump ของฉันจะเป็นยังไงถ้ามันเริ่มต้นก่อน Momentum Jump หรือราวกับว่ามันเริ่มที่นี่
- เมื่อคิดถึงวิธีนี้จะทำให้เห็นได้ชัดว่าหลังดีกว่าโดยทั่วไปการไล่ระดับสีในบางจุดจะชี้ให้คุณในทิศทางจากไปจนถึงระดับต่ำสุด (ที่มีขนาดค่อนข้างถูกต้อง) ในขณะที่ระดับความลาดเอียงที่เหมาะสม จุดอื่นมีโอกาสน้อยที่จะชี้คุณไปในทิศทางจากไปยังจุดต่ำสุด (โดยมีขนาดที่ค่อนข้างเหมาะสม) $\theta$ $\theta$ $\theta$

ในที่สุดเมื่อวานนี้ฉันโชคดีพอที่สังเกตลูกบอลแต่ละลูกกระโดดไปรอบ ๆ ในพื้นที่พารามิเตอร์ 1 มิติ
ฉันคิดว่าการดูตำแหน่งที่เปลี่ยนแปลงของพวกเขาในพื้นที่พารามิเตอร์นั้นไม่ได้ช่วยอะไรมากนักกับสัญชาตญาณเนื่องจากพื้นที่พารามิเตอร์นี้เป็นเส้น
ดังนั้นแทนที่จะสำหรับแต่ละลูกผมร่างกราฟ 2 มิติซึ่งในแนวแกน\ จากนั้นฉันดึงโดยใช้แปรงสีดำและดึงลูกบอลแต่ละลูกในตำแหน่งแรกตำแหน่งของเขาพร้อมด้วยตัวเลขเพื่อแสดงลำดับของตำแหน่งตามลำดับเวลา สุดท้ายฉันก็ดึงลูกศรสีเขียวเพื่อแสดงระยะทางในพื้นที่พารามิเตอร์ (เช่นระยะทางแนวนอนในกราฟ) ของโมเมนตัมกระโดดและลาดชัน $\theta$
$f(\theta)$ $7$

ภาคผนวก 1 - การสาธิตการใช้เหตุผลของ NAG_ball

ใน gif ที่ชวนให้หลงใหลนี้โดยAlec Radfordคุณสามารถเห็น NAG ทำงานได้ดีกว่า CM ("โมเมนตัม" ใน gif)
(ขั้นต่ำคือตำแหน่งของดาวและเส้นโค้งเป็นเส้นชั้นความสูง ) สำหรับคำอธิบายเกี่ยวกับเส้นชั้นความสูงและสาเหตุที่เส้นตั้งฉากกับการไล่ระดับสีดูวิดีโอ1และ2โดย3Blue1Brownในตำนาน)

การวิเคราะห์ช่วงเวลาที่เฉพาะเจาะจงแสดงให้เห็นถึงเหตุผลของ NAG_ball:

ลูกศรสีม่วง (ยาว) เป็นขั้นตอนย่อยของโมเมนตัม
ลูกศรสีแดงโปร่งใสเป็นขั้นตอนย่อยการไล่ระดับสีหากเริ่มต้นก่อนขั้นตอนย่อยของโมเมนตัม
ลูกศรสีดำเป็นขั้นตอนย่อยการไล่ระดับสีถ้ามันเริ่มต้นหลังจากขั้นตอนย่อยของโมเมนตัม
CM จะสิ้นสุดในเป้าหมายของลูกศรสีแดงเข้ม
NAG จะสิ้นสุดในเป้าหมายของลูกศรสีดำ

ภาคผนวก 2 - สิ่ง / คำศัพท์ที่ฉันสร้างขึ้น (เพื่อประโยชน์ของสัญชาตญาณ)

CM_ball
NAG_ball
กระโดดสองครั้ง
โมเมนตัมกระโดด
โมเมนตัมหายไปเนื่องจากแรงเสียดทานกับอากาศ
Slope Jump
ความกระตือรือร้นของลูก
ฉันเฝ้าดูลูกบอลเมื่อวานนี้

ภาคผนวก 3 - ศัพท์ที่ฉันไม่ได้แต่งหน้า

วิธีการทำงานของ CM และ NAG:
- ฉันขึ้นส่วนใหญ่ในส่วนที่ 2 ในกระดาษในความสำคัญของการเริ่มต้นและแรงผลักดันในการเรียนรู้ลึก
- นอกจากนี้ภาพรวมของอัลกอริธึมการเพิ่มประสิทธิภาพการไล่ระดับสี (บล็อกโพสต์โดย Sebastian Ruder) ช่วยให้ฉันเข้าใจ CM และ NAG (และอีกมากมาย)
ค่าสัมประสิทธิ์โมเมนตัม - คำที่ใช้อย่างน้อยในกระดาษ
อัตราการเรียนรู้

— Oren Milman
แหล่งที่มา

1

ฉันพบส่วนจาก "นี่คือลักษณะการทำงานของลูก: ... " ถึง "เพื่อชี้คุณไปในทิศทางจากθถึงขั้นต่ำ (โดยมีขนาดที่ค่อนข้างเหมาะสม)" ยอดเยี่ยมเป็นคำอธิบายของความแตกต่าง

— Poete Maudit

12

ฉันไม่คิดอย่างนั้น

มีคำอธิบายที่ดี Nesterov โมเมนตัม (aka Nesterov เร่งไล่โทนสี) มีสรรพคุณในการยกตัวอย่างเช่นSutskever, Martens et al. "เกี่ยวกับความสำคัญของการเริ่มต้นและแรงผลักดันในการเรียนรู้ลึก" 2013

ความแตกต่างที่สำคัญคือในโมเมนตัมแบบคลาสสิกก่อนอื่นคุณต้องแก้ไขความเร็วของคุณจากนั้นทำขั้นตอนใหญ่ตามความเร็วนั้น (และจากนั้นทำซ้ำ) แต่ในโมเมนตัม Nesterov คุณต้องก้าวไปสู่ทิศทางความเร็วแล้วทำการแก้ไขเวกเตอร์ความเร็วตาม ในตำแหน่งใหม่ (จากนั้นทำซ้ำ)

เช่นโมเมนตัมคลาสสิก:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) )
W(t+1) = W(t) + vW(t+1)

ในขณะที่โมเมนตัม Nesterov คือ:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) + momentum.*vW(t) )
W(t+1) = W(t) + vW(t+1)

จริงๆแล้วมันสร้างความแตกต่างอย่างมากในทางปฏิบัติ ...

— Arech
แหล่งที่มา

5

เพิ่มเติม: หลักสูตรสแตนฟอร์ดเกี่ยวกับโครงข่ายประสาทเทียม cs231nให้ขั้นตอนในรูปแบบอื่น:

v = mu * v_prev - learning_rate * gradient(x)   # GD + momentum
v_nesterov = v + mu * (v - v_prev)              # keep going, extrapolate
x += v_nesterov

นี่vคือความเร็ว aka ขั้นตอน aka state และmuเป็นปัจจัยโมเมนตัมโดยทั่วไป 0.9 หรือมากกว่านั้น ( v, xและlearning_rateสามารถเป็นพาหะนานมากกับ numpy รหัสเหมือนกัน.)

vในบรรทัดแรกคือการไล่ระดับสีด้วยโมเมนตัม v_nesterovประมาณการณ์ต่อไป ตัวอย่างเช่นด้วย mu = 0.9

v_prev  v   --> v_nesterov
---------------
 0  10  -->  19
10   0  -->  -9
10  10  -->  10
10  20  -->  29

คำอธิบายต่อไปนี้มี 3 คำ:
เทอม 1 เพียงอย่างเดียวคือการไล่ระดับสีแบบเกรเดียนต์ (GD),
1 + 2 ให้ GD + โมเมนตัม,
1 + 2 + 3 ให้ Nesterov GD

$x_t \to y_t$ $y_t \to x_{t+1}$

$\qquad y_t = x_t + m (x_t - x_{t-1}) \quad$ - โมเมนตัมตัวทำนาย
$\qquad x_{t+1} = y_t + h\ g(y_t) \qquad$ - การไล่ระดับสี

$g_t \equiv - \nabla f(y_t)$ $h$

$y_t$

$\qquad y_{t+1} = y_t$
$\qquad \qquad + \ h \ g_t \qquad \qquad \quad$ - การไล่ระดับสี
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$ - โมเมนตัมขั้นตอน
$\qquad \qquad + \ m \ h \ (g_t - g_{t-1}) \quad$ - โมเมนตัมการไล่ระดับสี

เทอมสุดท้ายคือความแตกต่างระหว่าง GD กับโมเมนตัมธรรมดาและ GD กับ Nesterov โมเมนตัม

$m$ $m_{grad}$
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$ - โมเมนตัมขั้นตอน
$\qquad \qquad + \ m_{grad} \ h \ (g_t - g_{t-1}) \quad$ - โมเมนตัมการไล่ระดับสี

$m_{grad} = 0$ $m_{grad} = m$
$m_{grad} > 0$
$m_{grad} \sim -.1$

$m_t$ $h_t$

(x / [c o n d, 1] - 100) + r i p p l e \times s i n (π x)

$(x / [cond, 1] - 100) + ripple \times sin( \pi x )$

— เดนิส
แหล่งที่มา