คำถามนี้เดือดลงไป "วิธีการทำชั้นบิดว่าการทำงาน
สมมติว่าฉันมีภาพเฉดสีเทาขนาดดังนั้นภาพจึงมีหนึ่งช่อง ในชั้นแรกฉันใช้การแปลง3 × 3กับตัวกรองk 1และช่องว่างภายใน จากนั้นฉันก็มีชั้นสังวัตนาอีกชั้นหนึ่งที่มีตัวกรอง5 × 5และตัวกรองk 2 ฉันมีแผนที่คุณลักษณะกี่อัน
Convolution แบบที่ 1
เลเยอร์แรกจะถูกดำเนินการ หลังจากนั้นฉันมีแผนที่คุณลักษณะ (อันสำหรับตัวกรองแต่ละตัว) แต่ละคนมีขนาดn ×เมตร ทุกพิกเซลถูกสร้างขึ้นโดยการใช้3 ⋅ 3 = 9พิกเซลจากภาพอินพุตเสริม
จากนั้นเลเยอร์ที่สองจะถูกนำไปใช้ ทุกคนได้รับการกรองมาใช้แยกแต่ละแผนที่คุณลักษณะ ผลลัพธ์นี้มีการแม็พฟีเจอร์สำหรับแมปฟีเจอร์k 1ทุกรายการ ดังนั้นจึงมีแผนที่คุณลักษณะk 1 × k 2หลังจากเลเยอร์ที่สอง ทุกพิกเซลเดียวของแผนที่คุณลักษณะใหม่แต่ละรายการได้สร้างขึ้นโดยใช้ขนาด5 ⋅ 5 = 25 "พิกเซล" ของแผนที่คุณลักษณะที่มีเบาะจากก่อนหน้านี้
ระบบต้องเรียนรู้พารามิเตอร์
Type 2.1 convolution
เหมือนเมื่อก่อน: เลเยอร์แรกจะถูกดำเนินการ หลังจากนั้นฉันมีแผนที่คุณลักษณะ (อันสำหรับตัวกรองแต่ละตัว) แต่ละคนมีขนาดn ×เมตร ทุกพิกเซลถูกสร้างขึ้นโดยการใช้3 ⋅ 3 = 9พิกเซลจากภาพอินพุตเสริม
ไม่เหมือนกับมาก่อน: จากนั้นเลเยอร์ที่สองจะถูกนำไปใช้ ตัวกรองทุกตัวจะถูกนำไปใช้กับภูมิภาคเดียวกัน แต่จะมีการแมปคุณสมบัติจากก่อนหน้านี้ทั้งหมด ซึ่งส่งผลให้คุณลักษณะแผนที่รวมทั้งหมดหลังจากชั้นที่สองถูกดำเนินการ ทุกพิกเซลเดียวของแต่ละแผนที่คุณลักษณะใหม่ได้ถูกสร้างขึ้นโดยการจับk 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2 "พิกเซล" ของแผนที่คุณลักษณะแบบบุนวมจากก่อนหน้านี้
ระบบต้องเรียนรู้พารามิเตอร์
Type 2.2 convolution
เหมือนด้านบน แต่แทนที่จะมีพารามิเตอร์ต่อตัวกรองซึ่งจะต้องเรียนรู้และได้รับการคัดลอกสำหรับแผนที่คุณลักษณะป้อนข้อมูลอื่น ๆ คุณมีk 1 ⋅ 3 ⋅ 3 + k 2 ⋅ k 1 ⋅ 5 ⋅ 5พารามิเตอร์ ซึ่งต้องเรียนรู้
คำถาม
- โดยทั่วไปแล้วจะใช้ Type 1 หรือ Type 2 หรือไม่
- Alexnetใช้ประเภทใด
- GoogLeNetใช้งานประเภทใด
- ถ้าคุณพูดแบบที่ 1: ทำไมการสนทนามีเหตุผลล่ะ? พวกเขาไม่เพียงคูณข้อมูลด้วยค่าคงที่หรือไม่
- ถ้าคุณพูดว่าแบบที่ 2: โปรดอธิบายค่าใช้จ่ายกำลังสอง ("ตัวอย่างเช่นในเครือข่ายการมองเห็นที่ลึกหากสองชั้นของการสนทนาถูกผูกมัดการเพิ่มจำนวนของตัวกรองของพวกเขาอย่างสม่ำเสมอจะทำให้การคำนวณเพิ่มขึ้นเป็นสองเท่า")
สำหรับคำตอบทั้งหมดโปรดให้หลักฐานบางอย่าง (เอกสารตำราเรียนเอกสารประกอบกรอบงาน) ที่คำตอบของคุณถูกต้อง
คำถามโบนัส 1
การรวมกำไรนั้นจะใช้กับแผนที่คุณลักษณะทุกครั้งหรือทำผ่านแผนที่คุณลักษณะหลายแห่งหรือไม่
คำถามโบนัส 2
ฉันค่อนข้างแน่ใจว่าประเภท 1 ถูกต้องและฉันเข้าใจผิดกับกระดาษ GoogLe แต่มีการโน้มน้าวใจ 3 มิติด้วย สมมติว่าคุณมีแผนที่คุณลักษณะ 1337 ขนาดและคุณใช้ตัวกรอง3 × 4 × 5 คุณเลื่อนตัวกรองไปบนแผนที่คุณลักษณะได้อย่างไร (จากซ้ายไปขวา, แผนที่คุณลักษณะแรกจากบนลงล่างไปยังแผนที่คุณลักษณะล่าสุด) มันมีความสำคัญตราบใดที่คุณยังคงสอดคล้องกัน?
งานวิจัยของฉัน
- ฉันได้อ่านเอกสารสองฉบับจากด้านบนแล้ว แต่ฉันยังไม่แน่ใจว่ามีการใช้งานอะไร
- ฉันอ่านเอกสารลาซานญ่าแล้ว
- ฉันอ่านเอกสาร theano แล้ว
- ฉันได้อ่านคำตอบเกี่ยวกับการทำความเข้าใจกับเครือข่ายประสาทเทียม (โดยไม่ต้องติดตามลิงก์ทั้งหมด)
- ฉันอ่านConvolutional Neural Networks (LeNet)แล้ว โดยเฉพาะอย่างยิ่งรูปที่ 1 ทำให้ฉันค่อนข้างแน่ใจว่า Type 2.1 นั้นถูกต้อง สิ่งนี้จะสอดคล้องกับความเห็น "ราคากำลังสอง" ใน GoogLe Net และประสบการณ์เชิงปฏิบัติบางอย่างที่ฉันมีกับ Caffee