ในฐานะที่เป็นข้อความเกริ่นนำไปสู่ปัญหาทั้งหมดที่คุณชื่อฉันอยากจะแนะนำหนังสือการเรียนรู้ลึก มันให้ภาพรวมกว้าง ๆ ของสนาม มันอธิบายบทบาทแต่ละพารามิเตอร์เหล่านั้นเล่น
ในความคิดของฉันมีประโยชน์มากในการอ่านเกี่ยวกับสถาปัตยกรรมยอดนิยมบางส่วน (resnet, inception, alex-net) และแยกแนวคิดหลักที่นำไปสู่การตัดสินใจออกแบบ หลังจากอ่านหนังสือดังกล่าว
ในหลักสูตรของการบรรยายที่คุณอ้างถึงจะมีการอธิบายอย่างละเอียดในเรื่องวิธีการที่ชั้นของการสนทนาเพิ่มพารามิเตอร์จำนวนมาก (น้ำหนักอคติ) และเซลล์ประสาท เลเยอร์นี้เมื่อผ่านการฝึกฝนแล้วจะสามารถแยกรูปแบบความหมายออกจากภาพได้ สำหรับเลเยอร์ที่ต่ำกว่าตัวกรองเหล่านั้นมีลักษณะเหมือนตัวแยกขอบ สำหรับเลเยอร์ที่สูงขึ้นรูปร่างดั้งเดิมนั้นถูกรวมเข้าด้วยกันเพื่ออธิบายรูปแบบที่ซับซ้อนมากขึ้น ตัวกรองเหล่านั้นเกี่ยวข้องกับพารามิเตอร์จำนวนมากและปัญหาใหญ่ของการออกแบบเครือข่ายที่ลึกในการอธิบายรูปแบบที่ซับซ้อนและยังสามารถลดจำนวนพารามิเตอร์ได้
เนื่องจากพิกเซลที่อยู่ใกล้เคียงมีความสัมพันธ์กันอย่างมาก (โดยเฉพาะในเลเยอร์ต่ำสุด) จึงเหมาะสมที่จะลดขนาดของเอาต์พุตโดยการย่อยตัวอย่าง (รวมกำไร) การตอบสนองของตัวกรอง พิกเซลที่ห่างกันอีกสองพิกเซลนั้นมาจากกันซึ่งก็จะมีความสัมพันธ์น้อยลง ดังนั้นความก้าวหน้าครั้งใหญ่ในชั้นการรวมกำไรนำไปสู่การสูญเสียข้อมูลสูง พูดอย่างหลวม ๆ การก้าวเดินของ 2 และเคอร์เนลขนาด 2x2 สำหรับเลเยอร์การรวมเป็นทางเลือกทั่วไป
วิธีการที่ซับซ้อนมากขึ้นคือเครือข่าย Inception ( ลึกลงไปด้วย convolutions ) ที่ความคิดคือการเพิ่ม sparsity แต่ก็ยังสามารถบรรลุความแม่นยำสูงขึ้นโดยการแลกเปลี่ยนจำนวนพารามิเตอร์ในชั้น convolutional เทียบกับโมดูลเริ่มต้นสำหรับเครือข่ายที่ลึกกว่า
กระดาษที่ดีที่ให้คำแนะนำเกี่ยวกับสถาปัตยกรรมในปัจจุบันและบทบาทของบางส่วนของมิติการออกแบบในโครงสร้างอย่างเป็นระบบเป็นSqueezeNet: ความถูกต้อง AlexNet ระดับที่มี 50x พารามิเตอร์น้อยลงและ <0.5MB ขนาดรูปแบบ มันสร้างแนวคิดที่นำมาใช้ในแบบจำลองที่กล่าวถึงก่อนหน้านี้