เครือข่ายที่เหลือเกี่ยวข้องกับการไล่ระดับสีอย่างรวดเร็วหรือไม่?


11

เมื่อเร็ว ๆ นี้เราเห็นการเกิดขึ้นของ Residual Neural Net นั้นแต่ละชั้นประกอบด้วยโมดูลการคำนวณและการเชื่อมต่อทางลัดที่เก็บรักษาอินพุตไว้กับเลเยอร์เช่นเอาท์พุทของการจัดแสดงชั้น ith: เครือข่ายอนุญาตให้แยกคุณลักษณะที่เหลือและช่วยให้ความลึกที่ลึกขึ้นในขณะที่มีประสิทธิภาพมากขึ้นสำหรับปัญหาการไล่ระดับสีที่หายไปเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัยy i + 1 = c i + y ici

yi+1=ci+yi

การขุดลึกลงไปในการเพิ่มระดับความลาดชันซึ่งเป็นเทคนิคการตระการตาที่ทรงพลังในโลกแห่งการเรียนรู้ของเครื่องซึ่งดูเหมือนว่าจะทำการเพิ่มประสิทธิภาพการไล่ระดับสีบนส่วนที่เหลือของการสูญเสียมันยากที่จะไม่เห็นความคล้ายคลึงกัน

ฉันรู้ว่าพวกมันเหมือนกัน แต่ไม่เหมือนกัน - ข้อแตกต่างที่สำคัญอย่างหนึ่งที่ฉันสังเกตเห็นก็คือการเพิ่มความลาดชันนั้นจะทำการปรับให้เหมาะสมที่สุดกับคำศัพท์เสริมในขณะที่ส่วนที่เหลืออยู่จะทำให้เครือข่ายทั้งหมดดีที่สุด

ผมไม่ได้เห็นเขา et al, ทราบว่านี่เป็นส่วนหนึ่งของแรงจูงใจของพวกเขาในของพวกเขากระดาษเดิม ดังนั้นฉันจึงสงสัยว่าความเข้าใจของคุณในหัวข้อนี้คืออะไรและขอให้คุณแบ่งปันแหล่งข้อมูลที่น่าสนใจที่คุณมี

ขอบคุณ.

คำตอบ:


7

อาจเป็นกระดาษที่ใหม่กว่าซึ่งพยายามที่จะจัดการกับมันมากขึ้นจากทีม Langford และ Shapire: การเรียนรู้บล็อก ResNet ที่ต่อเนื่องกันโดยใช้ทฤษฎีการเพิ่มประสิทธิภาพ

ส่วนที่น่าสนใจคือ (ดูหัวข้อที่ 3):

ความแตกต่างที่สำคัญคือการส่งเสริมการเป็นวงดนตรีของสมมติฐานที่คาดขณะที่ RESNET เป็นวงดนตรีของประมาณการคุณลักษณะการแสดง(x)) เพื่อแก้ปัญหานี้เราแนะนำผู้ช่วยเชิงเส้นลักษณนามด้านบนของแต่ละบล็อกที่เหลือจะสร้างโมดูลสมมติฐาน โมดูลสมมติฐานอย่างเป็นทางการ ถูกกำหนดให้เป็นt=0Tft(gt(x))wto t ( x ) : = w T t g t ( x ) R

ot(x):=wtTgt(x)R

...

(ที่)ot(x)=t=0t1wtTft(gt(x))

บทความนี้มีรายละเอียดมากขึ้นเกี่ยวกับการสร้างตัวแยกประเภทโมดูลที่อ่อนแอ และวิธีการรวมเข้ากับอัลกอริทึมBoostResNetของพวกเขาht(x)


การเพิ่มรายละเอียดเล็กน้อยลงในคำตอบนี้อัลกอริธึมการส่งเสริมทั้งหมดสามารถเขียนในรูปแบบของ [1] (p 5, 180, 185 ... ):

FT(x):=t=0Tαtht(x)

ที่ไหนเป็นสมมติฐานอ่อนแอสำหรับทางเลือกของบางส่วน\โปรดทราบว่าอัลกอริทึมการเร่งที่แตกต่างกันจะให้ผลลัพธ์และด้วยวิธีที่ต่างกันhttthαtαtht

ตัวอย่างเช่น AdaBoost [1] (p 5. ) ใช้เพื่อลดข้อผิดพลาดน้ำหนักด้วยhtϵtαt=12log1ϵtϵt

ในอีกทางหนึ่งการตั้งค่าการไล่ระดับสีแบบไล่ระดับ [1] (p 190. ),ถูกเลือกที่เพิ่มสูงสุด , และถูกเลือก (เป็นอัตราการเรียนรู้และอื่น ๆ )htL(Ft1(x))htαt>0

เมื่ออยู่ใน [2] ภายใต้ Lemma 3.2 จะแสดงว่าเอาต์พุตของความลึก ResNet คือซึ่งเทียบเท่ากับTF(x)

F(x)t=0Tht(x)

สิ่งนี้จะทำให้ความสัมพันธ์ระหว่างการเพิ่มและ resnet สมบูรณ์ กระดาษ [2] เสนอเพิ่มเลเยอร์เชิงเส้นเสริมเพื่อนำไปไว้ในรูปแบบซึ่งนำไปสู่อัลกอริทึม BoostResNet ของพวกเขาและการสนทนารอบ ๆFT(x):=t=0Tαtht(x)

[1] Robert E. Schapire และ Yoav Freund 2555 การส่งเสริม: รากฐานและอัลกอริทึม สำนักพิมพ์ MIT p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: การเรียนรู้บล็อก ResNet ต่อเนื่องโดยใช้ทฤษฎีการส่งเสริม, ICML 2018


4

ตอบคำถามของฉันเอง: ฉันได้พบเอกสารสำคัญที่ตรวจสอบและพิสูจน์ว่า Deep Residual Networks เป็นเครือข่ายตื้น ๆ

แก้ไขอีกหลังจากเข้าใจปัญหานี้มากขึ้นฉันดู Resnets เป็นวิธีการเรียนรู้ 'การเพิ่มคุณสมบัติ' การเชื่อมต่อที่เหลือดำเนินการเพิ่มประสิทธิภาพ แต่ไม่ได้อยู่ในวัตถุประสงค์ แต่จริง ๆ แล้วในคุณสมบัติการส่งออกของชั้นถัดไป ดังนั้นพวกเขาจึงเชื่อมต่อกัน แต่ไม่ใช่การเพิ่มการไล่ระดับสีแบบดั้งเดิม แต่ในความเป็นจริงแล้ว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.