แนวคิดของการใช้ตัวกรองเพื่อทำสิ่งต่าง ๆ เช่นระบุขอบเป็นแนวคิดที่ยอดเยี่ยม
ตัวอย่างเช่นคุณสามารถถ่ายภาพที่ 7 ด้วยฟิลเตอร์บางตัวคุณสามารถลงเอยด้วยภาพที่ถูกแปลงซึ่งเน้นลักษณะที่แตกต่างของภาพต้นฉบับ ต้นฉบับ 7:
สามารถมีประสบการณ์โดยเครือข่ายเป็น:
สังเกตว่าภาพแต่ละภาพแตกต่างจากเดิม 7 อย่างไร
ทั้งหมดนี้ยอดเยี่ยม แต่จากนั้นพูดว่าเลเยอร์ถัดไปในเครือข่ายของคุณคือเลเยอร์รวมกำไรสูงสุด
โดยทั่วไปแล้วคำถามของฉันดูเหมือนจะไม่เกินความเป็นจริงหรือไม่ เราแค่ระมัดระวังและไตร่ตรองอย่างรอบคอบด้วยการระบุขอบโดยใช้ฟิลเตอร์ - ตอนนี้เราไม่สนใจเรื่องนี้อีกต่อไปเนื่องจากเราได้ทำลายนรกจากค่าพิกเซล! โปรดแก้ไขให้ฉันถ้าฉันผิด แต่เราเปลี่ยนจาก 25 X 25 เป็น 2 X 2! ทำไมไม่ลองตรงไปที่ Max Pooling ในตอนนั้นพวกเราจะไม่จบลงด้วยสิ่งเดียวกันหรือเปล่า?
ในฐานะที่เป็นส่วนขยายคำถามของฉันฉันไม่สามารถช่วย แต่สงสัยว่าจะเกิดอะไรขึ้นถ้าบังเอิญทั้งสี่สี่เหลี่ยมทั้งหมดเกิดขึ้นมีพิกเซลที่มีค่าสูงสุดเดียวกัน แน่นอนว่านี่ไม่ใช่กรณีที่หายากใช่ไหม ทันใดนั้นภาพการฝึกของคุณทั้งหมดก็เหมือนกันทุกประการ
The pooling operation provides a form of translation invariance
ไหม?