ควรดูเครือข่ายที่ตกค้างในระดับลึกเป็นเครือข่ายหรือไม่


12

คำถามเกี่ยวกับสถาปัตยกรรมของ Deep Residual Networks ( ResNets ) รูปแบบที่ชนะอันดับ 1 ในงาน"Large Scale Visual Recognition Challenge 2015" (ILSVRC2015)ในห้าเส้นทางหลัก:

  • การจำแนกประเภทของ ImageNet:“ ล้ำลึก” (อ้างถึงยานน์) ตาข่าย 152 ชั้น
  • การตรวจจับ ImageNet: ดีขึ้นกว่า 2% 16%
  • การแปล ImageNet: 27% ดีกว่าที่ 2
  • การตรวจจับ COCO: ดีขึ้นกว่า 2% 11%
  • การแบ่งส่วน COCO: ดีกว่าอันดับ 2 ถึง 12% ที่

    มา: การ แข่งขัน MSRA @ ILSVRC และ COCO 2015 (การนำเสนอสไลด์ที่ 2)

งานนี้อธิบายไว้ในบทความต่อไปนี้:

การเรียนรู้สิ่งตกค้างลึกเพื่อการจดจำภาพ (2015, PDF)


ทีมวิจัยของ Microsoft (ผู้พัฒนา ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) ในบทความของพวกเขา:

"การแมปข้อมูลประจำตัวในเครือข่ายส่วนที่เหลือลึก (2016) "

ระบุว่าความลึกมีบทบาทสำคัญ:

" เราได้ผลลัพธ์เหล่านี้ผ่านแนวคิดที่เรียบง่าย แต่จำเป็น - ลึกลงไปผลลัพธ์เหล่านี้แสดงให้เห็นถึงศักยภาพของการผลักดันขีด จำกัด ของความลึก "

จะเน้นในการนำเสนอของพวกเขาด้วย (ลึกซึ้ง - ดีกว่า):

- "แบบจำลองที่ลึกกว่านั้นไม่ควรมีข้อผิดพลาดในการฝึกอบรมที่สูงขึ้น"
- "Deeper ResNets มีข้อผิดพลาดในการฝึกอบรมลดลงและมีข้อผิดพลาดในการทดสอบลดลง"
- "ResNets ที่ลึกกว่ามีข้อผิดพลาดต่ำกว่า"
- "ทั้งหมดได้รับประโยชน์มากกว่าจากคุณสมบัติที่ลึกกว่า - กำไรสะสม!"
- "ลึกกว่ายังดีกว่า"

นี่คือโครงสร้างของชั้นที่เหลือ 34 ชั้น (สำหรับการอ้างอิง): ป้อนคำอธิบายรูปภาพที่นี่


แต่เมื่อเร็ว ๆ นี้ฉันได้พบทฤษฎีหนึ่งที่แนะนำการตีความนวนิยายของเครือข่ายที่เหลือแสดงให้เห็นว่าพวกเขาเป็นวงดนตรีที่อธิบาย:

เครือข่ายที่เหลือเป็นรูปแบบเลขชี้กำลังของเครือข่ายที่ค่อนข้างตื้น (2016)

Deep Resnets ถูกอธิบายว่าเป็นเครือข่ายแบบตื้นจำนวนมากที่มีการรวมเอาท์พุทที่ระดับความลึกต่าง ๆ มีรูปภาพในบทความ ฉันแนบมันพร้อมคำอธิบาย:

ป้อนคำอธิบายรูปภาพที่นี่เครือข่ายที่เหลือจะแสดงตามอัตภาพเป็น (a) ซึ่งเป็นตัวแทนธรรมชาติของสมการ (1) เมื่อเราขยายสูตรนี้เป็นสมการ (6) เราจะได้รับมุมมองที่ไม่ได้รับการเปิดเผยของเครือข่ายที่เหลือ 3 บล็อก (b) จากมุมมองนี้จะเห็นได้ชัดว่าเครือข่ายที่เหลือมี O (2 ^ n) โดยนัยที่เชื่อมต่อเส้นทางอินพุตและเอาต์พุตและการเพิ่มบล็อกเพิ่มจำนวนเส้นทางเป็นสองเท่า

ในบทสรุปของบทความระบุไว้:

มันไม่ได้เป็นความลึก แต่ชุดที่ทำให้เครือข่ายที่เหลือที่แข็งแกร่ง เครือข่ายที่เหลือผลักดันข้อ จำกัด ของเครือข่ายหลายหลากไม่ใช่ความลึกของเครือข่าย มุมมองที่ไม่มีการเสนอของเราและการศึกษารอยโรคแสดงให้เห็นว่าเครือข่ายที่เหลือเป็นชุดของเครือข่ายจำนวนมากโดยปริยาย หากเส้นทางส่วนใหญ่ที่ให้การไล่ระดับสีนั้นสั้นมากเมื่อเทียบกับความลึกโดยรวมของเครือข่ายความลึกที่เพิ่มขึ้น เพียงอย่างเดียวไม่สามารถเป็นคุณลักษณะหลักของเครือข่ายที่เหลือได้ ตอนนี้เราเชื่อว่าหลายหลาก , expressability ของเครือข่ายในแง่ของจำนวนเส้นทางที่เล่นบทบาทสำคัญ

แต่มันเป็นเพียงทฤษฎีล่าสุดที่สามารถยืนยันหรือหักล้างได้ มันเกิดขึ้นบางครั้งว่ามีบางทฤษฎีที่ข้องแวะและบทความจะถอนออก


เราควรคิดว่า ResNets ลึกเป็นวงหลังจากทั้งหมดหรือไม่ ทั้งมวลหรือความลึกทำให้เครือข่ายที่เหลือยังคงแข็งแกร่ง เป็นไปได้หรือไม่ที่แม้แต่นักพัฒนาเองก็ไม่เข้าใจว่าแบบจำลองของพวกเขาเป็นอย่างไรและแนวคิดหลักในนั้นคืออะไร?

คำตอบ:


4

ลองนึกภาพ Genie ให้คุณสามความปรารถนา เนื่องจากคุณเป็นนักวิจัยการเรียนรู้ที่ลึกล้ำความปรารถนาแรกของคุณคือโซลูชั่นที่สมบูรณ์แบบสำหรับ 1,000 เลเยอร์ NN สำหรับ Image Net ซึ่งปรากฏบนแล็ปท็อปของคุณทันที

ทีนี้คำตอบที่ถูกต้องของมารไม่ได้ทำให้คุณเข้าใจได้อย่างไรว่ามันถูกตีความว่าเป็นวงดนตรี แต่คุณเชื่อหรือไม่ว่าคุณต้องการสิ่งที่เป็นนามธรรมจำนวน 1,000 ชั้นเพื่อแยกแมวออกจากสุนัข? ในฐานะนักเขียนของ "กระดาษชุด" พูดถึงตัวเองนี้ไม่แน่นอนสำหรับระบบชีวภาพ

แน่นอนว่าคุณอาจเสียความปรารถนาครั้งที่สองของคุณไปกับการสลายตัวของการแก้ปัญหาไปสู่เครือข่ายทั้งหมดและฉันค่อนข้างมั่นใจว่าจีนี่จะสามารถบังคับได้ เหตุผลที่เป็นส่วนหนึ่งของพลังของเครือข่ายที่ลึกจะมาจากผลกระทบทั้งหมด

ดังนั้นจึงไม่น่าแปลกใจที่เทคนิคสองอย่างที่ประสบความสำเร็จอย่างมากในการฝึกอบรมเครือข่ายลึกเครือข่ายออกกลางคันและเครือข่ายที่เหลือมีการตีความทันทีว่าเป็นทั้งมวลโดยนัย ดังนั้น "มันไม่ใช่ความลึก แต่วงดนตรี" ทำให้ฉันเป็นขั้วคู่ที่ผิด คุณจะพูดได้ว่าหากคุณเชื่อโดยสุจริตว่าคุณต้องการระดับนามธรรมนับร้อยหรือพันระดับเพื่อจำแนกภาพด้วยความแม่นยำของมนุษย์

ฉันขอแนะนำให้คุณใช้ความปรารถนาสุดท้ายสำหรับบางสิ่งบางอย่างอาจเป็น pinacolada


0

เครือข่ายที่เหลือแบบสุ่มสำหรับหลาย ๆ เส้นที่ไม่เป็นเชิงเส้นเช่น tanh อาศัยอยู่บนขอบของความโกลาหลโดยที่ระยะทางโคไซน์ของสองเวกเตอร์อินพุทจะรวมกันเป็นจุดคงที่ในอัตราพหุนามมากกว่าอัตราเอ็กซ์โปเนนเชียล ดังนั้นเครือข่ายส่วนที่เหลือโดยทั่วไปจะค่อยๆข้ามเขตแดนที่มีความวุ่นวายอย่างช้าๆด้วยความลึกโดยวนเวียนอยู่รอบ ๆ เขตแดนนี้สำหรับหลายชั้น โดยทั่วไปจะไม่“ ลืม” เรขาคณิตของพื้นที่อินพุต“ อย่างรวดเร็ว” ดังนั้นแม้ว่าเราจะทำให้พวกเขาลึกมากพวกเขาทำงานได้ดีขึ้นเครือข่ายวานิลลา

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเผยแพร่ข้อมูลในเครือข่ายที่เหลือ - เครือข่ายที่เหลือหมายถึงฟิลด์: ที่ Edge of Chaos

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.