เครือข่ายที่เหลือเกี่ยวข้องกับการไล่ระดับสีอย่างรวดเร็วหรือไม่?

11

เมื่อเร็ว ๆ นี้เราเห็นการเกิดขึ้นของ Residual Neural Net นั้นแต่ละชั้นประกอบด้วยโมดูลการคำนวณและการเชื่อมต่อทางลัดที่เก็บรักษาอินพุตไว้กับเลเยอร์เช่นเอาท์พุทของการจัดแสดงชั้น ith: เครือข่ายอนุญาตให้แยกคุณลักษณะที่เหลือและช่วยให้ความลึกที่ลึกขึ้นในขณะที่มีประสิทธิภาพมากขึ้นสำหรับปัญหาการไล่ระดับสีที่หายไปเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัย $c_i$

y_{i + 1} = c_{i} + y_{i}

$y_{i+1} = c_i + y_i$

การขุดลึกลงไปในการเพิ่มระดับความลาดชันซึ่งเป็นเทคนิคการตระการตาที่ทรงพลังในโลกแห่งการเรียนรู้ของเครื่องซึ่งดูเหมือนว่าจะทำการเพิ่มประสิทธิภาพการไล่ระดับสีบนส่วนที่เหลือของการสูญเสียมันยากที่จะไม่เห็นความคล้ายคลึงกัน

ฉันรู้ว่าพวกมันเหมือนกัน แต่ไม่เหมือนกัน - ข้อแตกต่างที่สำคัญอย่างหนึ่งที่ฉันสังเกตเห็นก็คือการเพิ่มความลาดชันนั้นจะทำการปรับให้เหมาะสมที่สุดกับคำศัพท์เสริมในขณะที่ส่วนที่เหลืออยู่จะทำให้เครือข่ายทั้งหมดดีที่สุด

ผมไม่ได้เห็นเขา et al, ทราบว่านี่เป็นส่วนหนึ่งของแรงจูงใจของพวกเขาในของพวกเขากระดาษเดิม ดังนั้นฉันจึงสงสัยว่าความเข้าใจของคุณในหัวข้อนี้คืออะไรและขอให้คุณแบ่งปันแหล่งข้อมูลที่น่าสนใจที่คุณมี

ขอบคุณ.

— rhadar
แหล่งที่มา

7

อาจเป็นกระดาษที่ใหม่กว่าซึ่งพยายามที่จะจัดการกับมันมากขึ้นจากทีม Langford และ Shapire: การเรียนรู้บล็อก ResNet ที่ต่อเนื่องกันโดยใช้ทฤษฎีการเพิ่มประสิทธิภาพ

ส่วนที่น่าสนใจคือ (ดูหัวข้อที่ 3):

ความแตกต่างที่สำคัญคือการส่งเสริมการเป็นวงดนตรีของสมมติฐานที่คาดขณะที่ RESNET เป็นวงดนตรีของประมาณการคุณลักษณะการแสดง(x)) เพื่อแก้ปัญหานี้เราแนะนำผู้ช่วยเชิงเส้นลักษณนามด้านบนของแต่ละบล็อกที่เหลือจะสร้างโมดูลสมมติฐาน โมดูลสมมติฐานอย่างเป็นทางการ ถูกกำหนดให้เป็น $\sum_{t=0}^T f_t(g_t(x))$ $\mathbf{w}_t$
$o_{t} (x) := w_{t}^{T} g_{t} (x) \in R$ $o_t(x) := \mathbf{w}_t^T g_t(x) \in \mathbb{R}$

...

(ที่) $o_t(x) = \sum_{{t'} = 0}^{t-1} \mathbf{w}_t^T f_{t'}(g_{t'}(x))$

บทความนี้มีรายละเอียดมากขึ้นเกี่ยวกับการสร้างตัวแยกประเภทโมดูลที่อ่อนแอ และวิธีการรวมเข้ากับอัลกอริทึมBoostResNetของพวกเขา $h_t(x)$

การเพิ่มรายละเอียดเล็กน้อยลงในคำตอบนี้อัลกอริธึมการส่งเสริมทั้งหมดสามารถเขียนในรูปแบบของ [1] (p 5, 180, 185 ... ):

F_{T} (x) := \sum_{t = 0}^{T} α_{t} h_{t} (x)

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

ที่ไหนเป็นสมมติฐานอ่อนแอสำหรับทางเลือกของบางส่วน\โปรดทราบว่าอัลกอริทึมการเร่งที่แตกต่างกันจะให้ผลลัพธ์และด้วยวิธีที่ต่างกัน $h_t$ $t^{th}$ $\alpha_t$ $\alpha_t$ $h_t$

ตัวอย่างเช่น AdaBoost [1] (p 5. ) ใช้เพื่อลดข้อผิดพลาดน้ำหนักด้วย $h_t$ $\epsilon_t$ $\alpha_t = \frac{1}{2} \log \frac{1- \epsilon_t}{\epsilon_t}$

ในอีกทางหนึ่งการตั้งค่าการไล่ระดับสีแบบไล่ระดับ [1] (p 190. ),ถูกเลือกที่เพิ่มสูงสุด , และถูกเลือก (เป็นอัตราการเรียนรู้และอื่น ๆ ) $h_t$ $\nabla\mathcal{L}(F_{t-1}(x)) \cdot h_t$ $\alpha_t > 0$

เมื่ออยู่ใน [2] ภายใต้ Lemma 3.2 จะแสดงว่าเอาต์พุตของความลึก ResNet คือซึ่งเทียบเท่ากับ $T$ $F(x)$

F (x) \propto \sum_{t = 0}^{T} h_{t} (x)

$F(x) \propto \sum_{t=0}^T h_t(x)$

สิ่งนี้จะทำให้ความสัมพันธ์ระหว่างการเพิ่มและ resnet สมบูรณ์ กระดาษ [2] เสนอเพิ่มเลเยอร์เชิงเส้นเสริมเพื่อนำไปไว้ในรูปแบบซึ่งนำไปสู่อัลกอริทึม BoostResNet ของพวกเขาและการสนทนารอบ ๆ $F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

[1] Robert E. Schapire และ Yoav Freund 2555 การส่งเสริม: รากฐานและอัลกอริทึม สำนักพิมพ์ MIT p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: การเรียนรู้บล็อก ResNet ต่อเนื่องโดยใช้ทฤษฎีการส่งเสริม, ICML 2018

— chappers
แหล่งที่มา

4

ตอบคำถามของฉันเอง: ฉันได้พบเอกสารสำคัญที่ตรวจสอบและพิสูจน์ว่า Deep Residual Networks เป็นเครือข่ายตื้น ๆ

แก้ไขอีกหลังจากเข้าใจปัญหานี้มากขึ้นฉันดู Resnets เป็นวิธีการเรียนรู้ 'การเพิ่มคุณสมบัติ' การเชื่อมต่อที่เหลือดำเนินการเพิ่มประสิทธิภาพ แต่ไม่ได้อยู่ในวัตถุประสงค์ แต่จริง ๆ แล้วในคุณสมบัติการส่งออกของชั้นถัดไป ดังนั้นพวกเขาจึงเชื่อมต่อกัน แต่ไม่ใช่การเพิ่มการไล่ระดับสีแบบดั้งเดิม แต่ในความเป็นจริงแล้ว

— rhadar
แหล่งที่มา