สถาปัตยกรรมเครือข่ายประสาทที่สอง (CNN) ที่คุณโพสต์มาจากบทความนี้ ในบทความผู้เขียนให้คำอธิบายว่าเกิดอะไรขึ้นระหว่างเลเยอร์ S2 และ C3 คำอธิบายของพวกเขายังไม่ชัดเจนนัก ฉันจะบอกว่าสถาปัตยกรรมของ CNN นี้ไม่ได้เป็น 'มาตรฐาน' และอาจสร้างความสับสนให้กับตัวอย่างแรกของ CNN
ก่อนอื่นต้องมีการชี้แจงเกี่ยวกับวิธีการสร้างแผนที่คุณลักษณะและความสัมพันธ์ของพวกเขากับตัวกรองคืออะไร แผนที่คุณลักษณะเป็นผลมาจากการแปลงตัวกรองที่มีแผนที่คุณสมบัติ มาดูเลเยอร์ INPUT และ C1 กัน ในกรณีที่พบบ่อยที่สุดในการรับแผนที่ขนาด 6 คุณสมบัติในชั้น C1 คุณต้องใช้ตัวกรองขนาด 6 6 ตัว (ผลของการบิดที่ถูกต้องของภาพขนาดด้วย a ตัวกรองขนาดสมมติว่ามีขนาด28×285×5M×MN×NM≥N(M−N+1)×(M−N+1). อย่างไรก็ตามคุณสามารถสร้างแผนที่คุณลักษณะได้ 6 แผนที่ด้วยการรวมแผนที่คุณลักษณะที่สร้างโดยตัวกรองมากกว่าหรือน้อยกว่า 6 ตัว (เช่นโดยการสรุปรวม) ในกระดาษไม่มีการเรียงลำดับใดที่บอกเป็นนัยสำหรับเลเยอร์ C1
เกิดอะไรขึ้นระหว่างเลเยอร์ S2 และเลเยอร์ C3 มีดังต่อไปนี้ มีฟีเจอร์แผนที่ 16 แบบในเลเยอร์ C3 ที่สร้างจากฟีเจอร์ 6 แผนที่ในเลเยอร์ S2 จำนวนตัวกรองในเลเยอร์ C3 ไม่ชัดเจน ในความเป็นจริงจากแผนภาพสถาปัตยกรรมเท่านั้นเราไม่สามารถตัดสินได้ว่าจำนวนตัวกรองที่แน่นอนที่สร้างแผนที่คุณลักษณะทั้ง 16 นั้นคืออะไร ผู้เขียนบทความให้ตารางต่อไปนี้ (หน้า 8):
ด้วยตารางที่ให้คำอธิบายต่อไปนี้ (ด้านล่างของหน้า 7):
Layer C3 เป็นเลเยอร์ convolutional พร้อมกับฟีเจอร์ 16 แผนที่ แต่ละหน่วยในแต่ละแผนที่คุณลักษณะเชื่อมต่อกับหลาย ๆละแวกใกล้เคียงในสถานที่ที่เหมือนกันในส่วนย่อยของแผนที่คุณสมบัติของ S25×5
ในตารางผู้เขียนแสดงให้เห็นว่าทุก ๆ แผนที่คุณลักษณะในเลเยอร์ C3 ถูกสร้างขึ้นโดยการรวมแผนที่คุณลักษณะ 3 อย่างหรือมากกว่า (หน้า 8):
แผนที่ฟีเจอร์ C3 หกรายการแรกจะรับอินพุตจากเซ็ตย่อยที่ต่อเนื่องกันของแผนที่คุณลักษณะทั้งสามใน S2 หกถัดไปรับข้อมูลจากทุกชุดย่อยที่ต่อเนื่องกันของสี่ สามรายการถัดไปรับข้อมูลจากชุดย่อยบางชุดที่ไม่ต่อเนื่องของสี่ชุด ในที่สุดอันสุดท้ายจะรับอินพุตจากแผนที่ฟีเจอร์ S2 ทั้งหมด
ทีนี้มีตัวกรองในเลเยอร์ C3 กี่ตัว? น่าเสียดายที่พวกเขาไม่ได้อธิบายเรื่องนี้ ความเป็นไปได้ที่ง่ายที่สุดสองอย่างคือ:
- มีหนึ่งตัวกรองต่อแผนที่คุณลักษณะ S2 ต่อแผนที่คุณลักษณะ C3 คือไม่มีการแชร์ตัวกรองระหว่างแผนที่คุณลักษณะ S2 ที่เชื่อมโยงกับแผนที่คุณลักษณะ C3 แบบเดียวกัน
- มีตัวกรองหนึ่งตัวต่อแผนที่คุณลักษณะ C3 ซึ่งแบ่งใช้ทั่วทั้งแผนที่คุณลักษณะ (3 ขึ้นไป) ของชั้น S2 ที่รวมกัน
ในทั้งสองกรณีการ 'รวมกัน' จะหมายถึงผลลัพธ์ของการแปลงต่อกลุ่มแผนที่คุณลักษณะ S2 จะต้องรวมกันเพื่อสร้างแผนที่คุณลักษณะ C3 ผู้เขียนไม่ได้ระบุวิธีการทำสิ่งนี้ แต่การเพิ่มเป็นตัวเลือกทั่วไป (ดูตัวอย่างภาพเคลื่อนไหว gif ที่อยู่ใกล้ตรงกลางของหน้านี้
ผู้เขียนให้ข้อมูลเพิ่มเติมบางอย่างซึ่งสามารถช่วยเราถอดรหัสสถาปัตยกรรม พวกเขาบอกว่า 'เลเยอร์ C3 มีพารามิเตอร์ที่ฝึกอบรมได้ 1,516 พารามิเตอร์' (หน้า 8) เราสามารถใช้ข้อมูลนี้เพื่อตัดสินใจระหว่างกรณี (1) และ (2) ด้านบน
ในกรณี (1) เรามีตัวกรอง ขนาดตัวกรอง5 จำนวนพารามิเตอร์ที่สามารถฝึกอบรมได้ในกรณีนี้คือพารามิเตอร์ที่ฝึกได้ หากเราถือว่าหนึ่งหน่วยอคติต่อแผนที่คุณลักษณะ C3 เราจะได้รับพารามิเตอร์ซึ่งเป็นสิ่งที่ผู้เขียนพูด เพื่อความสมบูรณ์ในกรณี (2) เราจะมีพารามิเตอร์ซึ่งไม่ใช่กรณี(6×3)+(9×4)+(1×6)=60(14−10+1)×(14−10+1)=5×55×5×60=1,5001,500+16=1,516(5×5×16)+16=416
ดังนั้นหากเราดูอีกครั้งที่ตารางที่ 1 ข้างต้นจะมีตัวกรอง C3 ที่แตกต่างกัน 10 ตัวที่เชื่อมโยงกับแผนที่คุณลักษณะ S2 แต่ละอัน (รวม 60 ตัวกรองที่แตกต่างกัน)
ผู้เขียนอธิบายตัวเลือกประเภทนี้:
แมปฟีเจอร์ที่แตกต่างกัน [ในเลเยอร์ C3] ถูกบังคับให้แยกฟีเจอร์ต่าง ๆ (เสริมหวัง) เพราะได้รับชุดอินพุตที่แตกต่างกัน
ฉันหวังว่านี่จะทำให้สถานการณ์ชัดเจนขึ้น