สนามเซลล์ประสาทสัมผัสใน LeNet


9

ฉันพยายามที่จะเข้าใจทุ่งเปิดกว้างของซีเอ็นเอ็นให้ดีขึ้น ในการทำเช่นนั้นฉันต้องการคำนวณเขตข้อมูลที่เปิดกว้างของแต่ละเซลล์ประสาทใน LeNet สำหรับ MLP ปกติมันค่อนข้างง่าย (ดูhttp://deeplearning.net/tutorial/lenet.html#sparse-connectivity ) แต่มันยากกว่าในการคำนวณเขตข้อมูลที่เปิดกว้างของเซลล์ประสาทในเลเยอร์ต่อไปนี้หนึ่งชั้นหรือมากกว่านั้นและ รวมชั้น

เซลล์รับแสงของเซลล์ประสาทในชั้นที่ 2 คืออะไร? มันมีขนาดใหญ่กว่ามากในชั้นย่อยย่อย / รวมกำไรต่อไปนี้? และสูตรการคำนวณเหล่านี้คืออะไร?


1
แถบด้านข้างที่เกี่ยวข้องแนะนำคำถามนี้ซึ่งเกี่ยวข้องกับประเภทของสิ่งที่คุณคิดและน่าสนใจ
Dougal

คำตอบ:


2

หากคุณคิดเกี่ยวกับ net convolutional เป็นตัวอย่างของ MLP มาตรฐานคุณสามารถเข้าใจฟิลด์ที่เปิดกว้างในลักษณะเดียวกับตัวอย่างที่คุณเชื่อมโยง

โปรดจำไว้ว่าเลเยอร์ convolutional นั้นเป็นชวเลขสำหรับเลเยอร์ที่มีรูปแบบซ้ำ ๆ กันหลายรูปแบบเช่นในภาพนี้ (จากคำตอบนี้มีพื้นเพมาจากที่นี่ ):

ตัวอย่างของการโน้มน้าวใจ

แต่ละ "ปลายทางพิกเซล" ของรูปภาพนั้นสอดคล้องกับเซลล์ประสาทซึ่งอินพุตเป็นสี่เหลี่ยมสีน้ำเงินในภาพต้นฉบับ ขึ้นอยู่กับสถาปัตยกรรมเครือข่ายของคุณ convolutions อาจไม่ตรงกับพิกเซลเช่นนั้น แต่เป็นความคิดเดียวกัน น้ำหนักที่ใช้เป็นอินพุตสำหรับเซลล์ประสาท convolutional ทั้งหมดนั้นเชื่อมโยงกัน แต่นั่นไม่เกี่ยวข้องกับสิ่งที่คุณคิดเกี่ยวกับที่นี่

การรวมเซลล์ประสาทเข้าด้วยกันสามารถทำได้ในลักษณะเดียวกันโดยรวมฟิลด์ที่เปิดกว้างของแต่ละอินพุตเข้าด้วยกัน


การสร้างภาพที่ดี! ตัวอย่างของคุณสมเหตุสมผลดี ถ้าฉันเพิ่ม 2x2 pooling layer หลังจากชั้น convolutional ดังนั้นแต่ละเซลล์ประสาทในชั้น pooling จะมีเขตข้อมูลที่เปิดกว้างของ 4x4 แม้จะผสมฟิลด์ 3x3 สี่เท่าเป็นเซลล์ประสาทในชั้นที่ทับซ้อนกัน ฉันสามารถเอาหัวของฉันไปรอบ ๆ สิ่งนี้และสร้างสูตรง่าย ๆ สำหรับฟิลด์ที่เปิดกว้างตามขนาดการรวมกำไรเป็นต้นอย่างไรก็ตามมันซับซ้อนมากขึ้นสำหรับเลเยอร์ convolutional ต่อไปนี้เนื่องจากฟิลด์ที่เปิดกว้างนั้นขึ้นอยู่กับความก้าวของเลเยอร์โพลเป็นต้น สูตรอะไรสำหรับ RF ที่คำนึงถึงสิ่งนี้?
pir

ดังนั้นสี่เหลี่ยมสีฟ้าในพิกเซลต้นทางคือขนาดของเขตข้อมูลที่เปิดกว้างหรือไม่
Charlie Parker

ฉันมีคำถามเดียวกันในบทความ "Faster R-CNN: สู่การตรวจจับวัตถุแบบเรียลไทม์ด้วยเครือข่ายข้อเสนอภูมิภาค" กล่าวในหัวข้อ 3.1 เขตข้อมูลที่รับได้ของ ZF และ VGG16 คือ 171 และ 228 แต่ไม่ได้เพิ่ม ขึ้นจากการกำหนดค่าเครือข่าย หวังว่าใครบางคนสามารถเคลียร์สิ่งนี้ให้ฉันได้
Chan Kim

0

ใน Faster-rcnn ฟิลด์การรับที่มีประสิทธิภาพสามารถคำนวณได้ดังต่อไปนี้ (VGG16):

Img->
Conv1 (3) -> Conv1 (3) -> Pool1 (2) ==>
Conv2 (3) -> Conv2 (3) -> Pool2 (2) ==>
Conv3 (3) -> Conv3 (3) ) -> Conv3 (3) -> Pool3 (2) ==>
Conv4 (3) -> Conv4 (3) -> Conv4 (3) -> Pool4 (2) ==>
Conv5 (3) -> Conv5 (3) ) -> Conv5 (3) ====>
หน้าต่าง 3 * 3 ในแผนที่คุณลักษณะ
ให้ใช้มิติเดียวเพื่อความเรียบง่าย หากเราได้รับกลับมาจากขนาด 3 ฟิลด์เปิดกว้างดั้งเดิม:
1) ในตอนต้นของ Conv5: 3 + 2 + 2 + 2 = 9
2) ในตอนต้นของ Conv4: 9 * 2 + 2 + 2 + 2 = 24
3) ในตอนต้นของ Conv3: 24 * 2 + 2 + 2 + 2 = 54
4) ในตอนต้นของ Conv2: 54 * 2 + 2 + 2 = 112
5) ในตอนต้นของ Conv1 (อินพุตต้นฉบับ): 112 * 2 + 2 + 2 = 228

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.