ฉันสงสัยเกี่ยวกับวิธีการไล่ระดับสีแบบกระจายกลับผ่านเครือข่ายประสาทโดยใช้โมดูล ResNet / การเชื่อมต่อข้าม ฉันเคยเห็นคำถามสองสามข้อเกี่ยวกับ ResNet (เช่นโครงข่ายประสาทเทียมที่มีการเชื่อมต่อแบบข้ามชั้น ) แต่คำถามนี้ถามเกี่ยวกับการแพร่กระจายของการไล่ระดับสีกลับระหว่างการฝึกอบรมโดยเฉพาะ
สถาปัตยกรรมพื้นฐานอยู่ที่นี่:
ฉันอ่านบทความนี้การศึกษาเครือข่ายที่เหลือเพื่อการจดจำรูปภาพและในส่วนที่ 2 พวกเขาพูดถึงว่าหนึ่งในเป้าหมายของ ResNet คือการอนุญาตเส้นทางที่สั้นลง / ชัดเจนขึ้นสำหรับการไล่ระดับสีเพื่อแพร่กระจายกลับไปยังชั้นฐาน
ทุกคนสามารถอธิบายได้ว่าการไล่ระดับสีไหลผ่านเครือข่ายประเภทนี้อย่างไร ฉันไม่เข้าใจวิธีการดำเนินการเพิ่มและการขาดเลเยอร์ที่มีพารามิเตอร์หลังจากนั้นช่วยให้การแพร่กระจายของการไล่ระดับสีดีขึ้น มันมีบางอย่างเกี่ยวกับวิธีที่การไล่ระดับสีไม่เปลี่ยนแปลงเมื่อไหลผ่านโอเปอเรเตอร์ Add และมีการแจกจ่ายซ้ำโดยไม่มีการคูณ?
นอกจากนี้ฉันสามารถเข้าใจได้ว่าปัญหาการไล่ระดับสีที่หายไปนั้นบรรเทาลงได้อย่างไรหากการไล่ระดับสีไม่จำเป็นต้องไหลผ่านชั้นน้ำหนัก แต่ถ้าไม่มีการไล่ระดับสีแบบไหลผ่านน้ำหนักแล้วพวกเขาจะได้รับการอัปเดตอย่างไร
the gradient doesn't need to flow through the weight layers
คุณอธิบายได้ไหม