สถาปัตยกรรมคอขวดทำงานในเครือข่ายประสาทได้อย่างไร

21

เรากำหนดสถาปัตยกรรมคอขวดเป็นประเภทที่พบในกระดาษResNetโดยที่ [เลเยอร์ 3x3 Conv สอง] ถูกแทนที่ด้วย [หนึ่ง 1x1 Conv, หนึ่ง 3x3 Conv และอีกหนึ่ง 1x1 Conv ชั้น]

ผมเข้าใจว่าชั้น 1x1 แปลงจะใช้เป็นรูปแบบของการลดมิติ (และบูรณะ) ซึ่งจะมีการอธิบายในโพสต์อื่น อย่างไรก็ตามฉันไม่แน่ใจว่าทำไมโครงสร้างนี้จึงมีประสิทธิภาพเหมือนกับเค้าโครงดั้งเดิม

คำอธิบายที่ดีบางประการอาจรวมถึง: มีการใช้ความยาวแบบก้าวใดและเลเยอร์ใด ตัวอย่างอินพุตและเอาต์พุตมิติของแต่ละโมดูลคืออะไร? แผนผังคุณลักษณะ 56x56 แสดงในแผนภาพด้านบนอย่างไร 64-d อ้างถึงจำนวนตัวกรองเหตุใดจึงแตกต่างจากตัวกรอง 256-d มีการใช้น้ำหนักหรือฟล็อปกี่ครั้งในแต่ละชั้น

การอภิปรายใด ๆ ที่ชื่นชมอย่างมาก!

residuals deep-learning conv-neural-network

— derekchen14
แหล่งที่มา

ฉันคิดว่ามันอาจช่วยให้มีลักษณะทั่วไปและการป้องกันของการปรับเกิน แต่นั่นเป็นเพียงความทรงจำที่คลุมเครือ

— Chris

5

สถาปัตยกรรมคอขวดถูกใช้ในเครือข่ายที่มีความลึกมากเนื่องจากมีข้อควรพิจารณาด้านการคำนวณ

ในการตอบคำถามของคุณ:

แมปคุณสมบัติ 56x56 ไม่ได้แสดงในภาพด้านบน บล็อกนี้นำมาจาก ResNet ที่มีขนาดอินพุต 224x224 56x56 เป็นรุ่นอินพุทที่สุ่มตัวอย่างของเลเยอร์กลางบางอัน
64-d หมายถึงจำนวนของคุณลักษณะแผนที่ (ตัวกรอง) สถาปัตยกรรมคอขวดมี 256-d เพียงเพราะมันมีไว้สำหรับเครือข่ายที่ลึกมากซึ่งอาจใช้ภาพความละเอียดสูงเป็นอินพุตและดังนั้นจึงต้องใช้คุณสมบัติแผนที่เพิ่มเติม
อ้างถึงตัวเลขนี้สำหรับพารามิเตอร์ของแต่ละเลเยอร์คอขวดใน ResNet 50

— Newstein
แหล่งที่มา

1

สำหรับผู้อ่านในอนาคตฉันควรพูดถึงว่าฉันคิดว่า 1x1 Convs มี stride = 1 และ pad = 0 เพื่อรักษา (WxH) 56x56 ในทำนองเดียวกัน 3x3 Convs มี stride = 1 และ pad = 1 เพื่อรักษาขนาดเช่นกัน

— derekchen14

ยังฉันไม่เข้าใจ ดูเหมือนว่าทั้งคู่มีจำนวนพารามิเตอร์ใกล้เคียงกันในกรณีนี้ฉันยังไม่เข้าใจวัตถุประสงค์ของเลเยอร์ bootleneck

— user570593

-1

ฉันคิดว่าจุดที่ 2 ในคำตอบของNewsteinนั้นทำให้เข้าใจผิด

64-dหรือ256-dควรดูที่จำนวนช่องของแผนที่คุณลักษณะการป้อนข้อมูล - ไม่ใช่จำนวนของการป้อนข้อมูลแผนที่คุณลักษณะ

พิจารณาบล็อก "คอขวด" (ด้านขวาของภาพ) ในคำถามของ OP เป็นตัวอย่าง:

256-dn x n x 256หมายถึงว่าเรามีแผนที่คุณลักษณะการป้อนข้อมูลเดียวที่มีมิติ 1x1, 64ในรูปหมายถึง 64 ฟิลเตอร์แต่ละคนเป็น1x1และมี256ช่อง ( 1x1x256)
ดังนั้นที่นี่เราจะเห็นว่าการบิดของฟิลเตอร์เดียว ( 1x1x256) พร้อมกับฟีเจอร์แมปอินพุท ( n x n x 256) ให้n x nผลลัพธ์กับเรา
ตอนนี้เรามี ฟิลเตอร์จึงซ้อนผลผลิตมิติผลผลิตคุณลักษณะแผนที่64n x n x 64

แก้ไข:

@Michael Chernick: ตกลงแล้วนี่จะเป็นคำตอบบางส่วนเนื่องจากฉันพยายามแก้ไขคำตอบที่ยอมรับแล้ว คุณใช้เวลาดูคำตอบบางส่วนของฉันและแจ้งให้เราทราบหากฉันเข้าใจถูกต้องหรือไม่

— จุดชนวน
แหล่งที่มา

คุณไม่ควรใช้คำตอบสำหรับความคิดเห็นโดยไม่คำนึงถึงชื่อเสียง

— Michael R. Chernick