การเลือกขนาดตัวกรองความก้าวหน้า ฯลฯ ใน CNN


12

ฉันกำลังดูการบรรยาย CS231N จาก Stanford และฉันพยายามที่จะสรุปประเด็นสำคัญในสถาปัตยกรรมของ CNN สิ่งที่ฉันพยายามจะเข้าใจก็คือหากมีแนวทางทั่วไปในการเลือกขนาดตัวกรอง convolution และสิ่งต่าง ๆ เช่นความก้าวหน้าหรือสิ่งนี้เป็นศิลปะมากกว่าวิทยาศาสตร์?

การรวมกันฉันเข้าใจว่ามีอยู่ส่วนใหญ่เพื่อชักนำรูปแบบของค่าคงที่ของการแปลในรูปแบบ ในทางกลับกันฉันไม่มีสัญชาตญาณที่ดีในการเลือกขนาดกางเกง มีแนวทางอื่นที่นอกเหนือไปจากการพยายามบีบอัดขนาดเลเยอร์ปัจจุบันหรือพยายามที่จะทำให้เกิดการตอบสนองที่กว้างขึ้นไปยังเซลล์ประสาทหรือไม่? ใครรู้เอกสารที่ดีหรือคล้ายกันที่กล่าวถึงนี้

คำตอบ:


9

ในฐานะที่เป็นข้อความเกริ่นนำไปสู่ปัญหาทั้งหมดที่คุณชื่อฉันอยากจะแนะนำหนังสือการเรียนรู้ลึก มันให้ภาพรวมกว้าง ๆ ของสนาม มันอธิบายบทบาทแต่ละพารามิเตอร์เหล่านั้นเล่น

ในความคิดของฉันมีประโยชน์มากในการอ่านเกี่ยวกับสถาปัตยกรรมยอดนิยมบางส่วน (resnet, inception, alex-net) และแยกแนวคิดหลักที่นำไปสู่การตัดสินใจออกแบบ หลังจากอ่านหนังสือดังกล่าว

ในหลักสูตรของการบรรยายที่คุณอ้างถึงจะมีการอธิบายอย่างละเอียดในเรื่องวิธีการที่ชั้นของการสนทนาเพิ่มพารามิเตอร์จำนวนมาก (น้ำหนักอคติ) และเซลล์ประสาท เลเยอร์นี้เมื่อผ่านการฝึกฝนแล้วจะสามารถแยกรูปแบบความหมายออกจากภาพได้ สำหรับเลเยอร์ที่ต่ำกว่าตัวกรองเหล่านั้นมีลักษณะเหมือนตัวแยกขอบ สำหรับเลเยอร์ที่สูงขึ้นรูปร่างดั้งเดิมนั้นถูกรวมเข้าด้วยกันเพื่ออธิบายรูปแบบที่ซับซ้อนมากขึ้น ตัวกรองเหล่านั้นเกี่ยวข้องกับพารามิเตอร์จำนวนมากและปัญหาใหญ่ของการออกแบบเครือข่ายที่ลึกในการอธิบายรูปแบบที่ซับซ้อนและยังสามารถลดจำนวนพารามิเตอร์ได้

เนื่องจากพิกเซลที่อยู่ใกล้เคียงมีความสัมพันธ์กันอย่างมาก (โดยเฉพาะในเลเยอร์ต่ำสุด) จึงเหมาะสมที่จะลดขนาดของเอาต์พุตโดยการย่อยตัวอย่าง (รวมกำไร) การตอบสนองของตัวกรอง พิกเซลที่ห่างกันอีกสองพิกเซลนั้นมาจากกันซึ่งก็จะมีความสัมพันธ์น้อยลง ดังนั้นความก้าวหน้าครั้งใหญ่ในชั้นการรวมกำไรนำไปสู่การสูญเสียข้อมูลสูง พูดอย่างหลวม ๆ การก้าวเดินของ 2 และเคอร์เนลขนาด 2x2 สำหรับเลเยอร์การรวมเป็นทางเลือกทั่วไป

วิธีการที่ซับซ้อนมากขึ้นคือเครือข่าย Inception ( ลึกลงไปด้วย convolutions ) ที่ความคิดคือการเพิ่ม sparsity แต่ก็ยังสามารถบรรลุความแม่นยำสูงขึ้นโดยการแลกเปลี่ยนจำนวนพารามิเตอร์ในชั้น convolutional เทียบกับโมดูลเริ่มต้นสำหรับเครือข่ายที่ลึกกว่า

กระดาษที่ดีที่ให้คำแนะนำเกี่ยวกับสถาปัตยกรรมในปัจจุบันและบทบาทของบางส่วนของมิติการออกแบบในโครงสร้างอย่างเป็นระบบเป็นSqueezeNet: ความถูกต้อง AlexNet ระดับที่มี 50x พารามิเตอร์น้อยลงและ <0.5MB ขนาดรูปแบบ มันสร้างแนวคิดที่นำมาใช้ในแบบจำลองที่กล่าวถึงก่อนหน้านี้


1

หากคุณพิจารณาการเรียนรู้ที่ดีขึ้นในช่วงการเรียนรู้ฉันต้องการแนะนำเคอร์เนลและขนาดก้าวย่างเหล่านี้

เกี่ยวกับขนาดตัวกรองฉันคิดว่ามันขึ้นอยู่กับลักษณะภาพของคุณ ตัวอย่างเช่นจำเป็นต้องใช้พิกเซลจำนวนมากสำหรับเครือข่ายที่รับรู้วัตถุคุณอาจใช้ตัวกรองที่ใหญ่กว่าในทางกลับกันหากวัตถุมีขนาดค่อนข้างเล็กหรือในพื้นที่

สำหรับขนาดก้าวย่างสำหรับฉันก้าวเล็ก ๆ จะดีกว่าในการจับรายละเอียดปลีกย่อยของภาพอินพุต

สำหรับฉันข้อดีของการรวมกำไรคือการแยกคุณสมบัติที่คมชัดที่สุดของภาพออกมา โดยทั่วไปแล้วคุณสมบัติที่คมชัดที่สุดจะดูเหมือนภาพระดับล่างที่ดีที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.