สถาปัตยกรรมคอขวดทำงานในเครือข่ายประสาทได้อย่างไร


21

เรากำหนดสถาปัตยกรรมคอขวดเป็นประเภทที่พบในกระดาษResNetโดยที่ [เลเยอร์ 3x3 Conv สอง] ถูกแทนที่ด้วย [หนึ่ง 1x1 Conv, หนึ่ง 3x3 Conv และอีกหนึ่ง 1x1 Conv ชั้น]ป้อนคำอธิบายรูปภาพที่นี่

ผมเข้าใจว่าชั้น 1x1 แปลงจะใช้เป็นรูปแบบของการลดมิติ (และบูรณะ) ซึ่งจะมีการอธิบายในโพสต์อื่น อย่างไรก็ตามฉันไม่แน่ใจว่าทำไมโครงสร้างนี้จึงมีประสิทธิภาพเหมือนกับเค้าโครงดั้งเดิม

คำอธิบายที่ดีบางประการอาจรวมถึง: มีการใช้ความยาวแบบก้าวใดและเลเยอร์ใด ตัวอย่างอินพุตและเอาต์พุตมิติของแต่ละโมดูลคืออะไร? แผนผังคุณลักษณะ 56x56 แสดงในแผนภาพด้านบนอย่างไร 64-d อ้างถึงจำนวนตัวกรองเหตุใดจึงแตกต่างจากตัวกรอง 256-d มีการใช้น้ำหนักหรือฟล็อปกี่ครั้งในแต่ละชั้น

การอภิปรายใด ๆ ที่ชื่นชมอย่างมาก!


ฉันคิดว่ามันอาจช่วยให้มีลักษณะทั่วไปและการป้องกันของการปรับเกิน แต่นั่นเป็นเพียงความทรงจำที่คลุมเครือ
Chris

คำตอบ:


5

สถาปัตยกรรมคอขวดถูกใช้ในเครือข่ายที่มีความลึกมากเนื่องจากมีข้อควรพิจารณาด้านการคำนวณ

ในการตอบคำถามของคุณ:

  1. แมปคุณสมบัติ 56x56 ไม่ได้แสดงในภาพด้านบน บล็อกนี้นำมาจาก ResNet ที่มีขนาดอินพุต 224x224 56x56 เป็นรุ่นอินพุทที่สุ่มตัวอย่างของเลเยอร์กลางบางอัน

  2. 64-d หมายถึงจำนวนของคุณลักษณะแผนที่ (ตัวกรอง) สถาปัตยกรรมคอขวดมี 256-d เพียงเพราะมันมีไว้สำหรับเครือข่ายที่ลึกมากซึ่งอาจใช้ภาพความละเอียดสูงเป็นอินพุตและดังนั้นจึงต้องใช้คุณสมบัติแผนที่เพิ่มเติม

  3. อ้างถึงตัวเลขนี้สำหรับพารามิเตอร์ของแต่ละเลเยอร์คอขวดใน ResNet 50


1
สำหรับผู้อ่านในอนาคตฉันควรพูดถึงว่าฉันคิดว่า 1x1 Convs มี stride = 1 และ pad = 0 เพื่อรักษา (WxH) 56x56 ในทำนองเดียวกัน 3x3 Convs มี stride = 1 และ pad = 1 เพื่อรักษาขนาดเช่นกัน
derekchen14

ยังฉันไม่เข้าใจ ดูเหมือนว่าทั้งคู่มีจำนวนพารามิเตอร์ใกล้เคียงกันในกรณีนี้ฉันยังไม่เข้าใจวัตถุประสงค์ของเลเยอร์ bootleneck
user570593

-1

ฉันคิดว่าจุดที่ 2 ในคำตอบของNewsteinนั้นทำให้เข้าใจผิด

64-dหรือ256-dควรดูที่จำนวนช่องของแผนที่คุณลักษณะการป้อนข้อมูล - ไม่ใช่จำนวนของการป้อนข้อมูลแผนที่คุณลักษณะ

พิจารณาบล็อก "คอขวด" (ด้านขวาของภาพ) ในคำถามของ OP เป็นตัวอย่าง:

  • 256-dn x n x 256หมายถึงว่าเรามีแผนที่คุณลักษณะการป้อนข้อมูลเดียวที่มีมิติ 1x1, 64ในรูปหมายถึง 64 ฟิลเตอร์แต่ละคนเป็น1x1และมี256ช่อง ( 1x1x256)
  • ดังนั้นที่นี่เราจะเห็นว่าการบิดของฟิลเตอร์เดียว ( 1x1x256) พร้อมกับฟีเจอร์แมปอินพุท ( n x n x 256) ให้n x nผลลัพธ์กับเรา
  • ตอนนี้เรามี ฟิลเตอร์จึงซ้อนผลผลิตมิติผลผลิตคุณลักษณะแผนที่64n x n x 64

แก้ไข:

  • @Michael Chernick: ตกลงแล้วนี่จะเป็นคำตอบบางส่วนเนื่องจากฉันพยายามแก้ไขคำตอบที่ยอมรับแล้ว คุณใช้เวลาดูคำตอบบางส่วนของฉันและแจ้งให้เราทราบหากฉันเข้าใจถูกต้องหรือไม่

คุณไม่ควรใช้คำตอบสำหรับความคิดเห็นโดยไม่คำนึงถึงชื่อเสียง
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.