เรากำหนดสถาปัตยกรรมคอขวดเป็นประเภทที่พบในกระดาษResNetโดยที่ [เลเยอร์ 3x3 Conv สอง] ถูกแทนที่ด้วย [หนึ่ง 1x1 Conv, หนึ่ง 3x3 Conv และอีกหนึ่ง 1x1 Conv ชั้น]
ผมเข้าใจว่าชั้น 1x1 แปลงจะใช้เป็นรูปแบบของการลดมิติ (และบูรณะ) ซึ่งจะมีการอธิบายในโพสต์อื่น อย่างไรก็ตามฉันไม่แน่ใจว่าทำไมโครงสร้างนี้จึงมีประสิทธิภาพเหมือนกับเค้าโครงดั้งเดิม
คำอธิบายที่ดีบางประการอาจรวมถึง: มีการใช้ความยาวแบบก้าวใดและเลเยอร์ใด ตัวอย่างอินพุตและเอาต์พุตมิติของแต่ละโมดูลคืออะไร? แผนผังคุณลักษณะ 56x56 แสดงในแผนภาพด้านบนอย่างไร 64-d อ้างถึงจำนวนตัวกรองเหตุใดจึงแตกต่างจากตัวกรอง 256-d มีการใช้น้ำหนักหรือฟล็อปกี่ครั้งในแต่ละชั้น
การอภิปรายใด ๆ ที่ชื่นชมอย่างมาก!