ทำไมต้องเลือก Max Pooling ที่จะลดขนาดภาพลงไป


14

แนวคิดของการใช้ตัวกรองเพื่อทำสิ่งต่าง ๆ เช่นระบุขอบเป็นแนวคิดที่ยอดเยี่ยม

ตัวอย่างเช่นคุณสามารถถ่ายภาพที่ 7 ด้วยฟิลเตอร์บางตัวคุณสามารถลงเอยด้วยภาพที่ถูกแปลงซึ่งเน้นลักษณะที่แตกต่างของภาพต้นฉบับ ต้นฉบับ 7:

ป้อนคำอธิบายรูปภาพที่นี่

สามารถมีประสบการณ์โดยเครือข่ายเป็น:

ป้อนคำอธิบายรูปภาพที่นี่

สังเกตว่าภาพแต่ละภาพแตกต่างจากเดิม 7 อย่างไร

ทั้งหมดนี้ยอดเยี่ยม แต่จากนั้นพูดว่าเลเยอร์ถัดไปในเครือข่ายของคุณคือเลเยอร์รวมกำไรสูงสุด

โดยทั่วไปแล้วคำถามของฉันดูเหมือนจะไม่เกินความเป็นจริงหรือไม่ เราแค่ระมัดระวังและไตร่ตรองอย่างรอบคอบด้วยการระบุขอบโดยใช้ฟิลเตอร์ - ตอนนี้เราไม่สนใจเรื่องนี้อีกต่อไปเนื่องจากเราได้ทำลายนรกจากค่าพิกเซล! โปรดแก้ไขให้ฉันถ้าฉันผิด แต่เราเปลี่ยนจาก 25 X 25 เป็น 2 X 2! ทำไมไม่ลองตรงไปที่ Max Pooling ในตอนนั้นพวกเราจะไม่จบลงด้วยสิ่งเดียวกันหรือเปล่า?

ในฐานะที่เป็นส่วนขยายคำถามของฉันฉันไม่สามารถช่วย แต่สงสัยว่าจะเกิดอะไรขึ้นถ้าบังเอิญทั้งสี่สี่เหลี่ยมทั้งหมดเกิดขึ้นมีพิกเซลที่มีค่าสูงสุดเดียวกัน แน่นอนว่านี่ไม่ใช่กรณีที่หายากใช่ไหม ทันใดนั้นภาพการฝึกของคุณทั้งหมดก็เหมือนกันทุกประการ

คำตอบ:


16

การรวมกันสูงสุดไม่ทำให้ภาพตัวอย่างลดลง มันลงตัวอย่างคุณสมบัติ (เช่นขอบ) ที่คุณเพิ่งแยก ซึ่งหมายความว่าคุณจะได้รับประมาณที่ขอบหรือคุณสมบัติอื่น ๆ บ่อยครั้งที่นี่เป็นสิ่งที่เครือข่ายต้องการสำหรับการทำ generalization - เพื่อจัดประเภทมันไม่จำเป็นต้องรู้ว่ามีขอบแนวตั้งทำงานจาก 10,5 ถึง 10,20 แต่มีขอบแนวตั้งโดยประมาณประมาณ 1/3 ขอบซ้ายประมาณความสูง 2/3 ของภาพ

ฟีเจอร์ประเภทที่หยาบกว่าเหล่านี้จะครอบคลุมความแปรผันของภาพอินพุทมากขึ้นโดยมีค่าใช้จ่ายน้อยมากและการลดขนาดของแมปคุณสมบัติเป็นผลข้างเคียงที่ดีเช่นกันทำให้เครือข่ายเร็วขึ้น

เพื่อให้ทำงานได้ดีคุณยังต้องแยกฟีเจอร์ที่จะเริ่มต้นด้วยซึ่งการรวมกำไรสูงสุดไม่ได้ทำดังนั้นจึงจำเป็นต้องใช้เลเยอร์ convolutional คุณควรพบว่าคุณสามารถสุ่มภาพต้นฉบับ (ถึง 14x14) ลงแทนการใช้เลเยอร์ max-pooling แรกและคุณจะยังคงได้ความแม่นยำที่สมเหตุสมผล วิธีรวมกำไรที่ต้องทำและตำแหน่งที่จะเพิ่มเลเยอร์เหล่านั้นเป็นอีกหนึ่งปัญหาของพารามิเตอร์ไฮเปอร์เมื่อสร้างเครือข่ายนิวรัลลึก


6

เราไม่สามารถไปจากชั้นป้อนข้อมูลเพื่อร่วมกันสูงสุดเพราะconvolution layerในระหว่าง สาเหตุของการบิดคือการดึงคุณสมบัติ Max pooling down-samples คุณสมบัติที่ได้รับการสกัด หากคุณคิดว่ามีฟีเจอร์ที่ขาดหายไปเนื่องจากการกระโดดโดยตรงจากเมทริกซ์ขนาดใหญ่ไปยังเลเยอร์รวมกำไรสูงสุดคุณสามารถเพิ่มเลเยอร์การสนทนาเพิ่มเติมในระหว่างนั้นจนกว่าคุณจะพอใจกับขนาดและจากนั้นก็รวมกำไรสูงสุดเข้าด้วยกัน ไม่ใช่ overkill

Max pooling ซึ่งเป็นรูปแบบของการสุ่มตัวอย่างเพื่อใช้ในการระบุคุณสมบัติที่สำคัญที่สุด แต่การรวมกำไรโดยเฉลี่ยและเทคนิคอื่น ๆ ก็สามารถใช้ได้เช่นกัน ปกติฉันทำงานกับข้อความไม่ใช่รูปภาพ สำหรับฉันค่าปกติไม่เหมือนกันทั้งหมด แต่ถ้าพวกเขาเกินไปก็จะไม่สร้างความแตกต่างมากเพราะเพียงแค่เลือกค่าที่ใหญ่ที่สุด

ความเข้าใจที่ดีมากจากวิกิพีเดีย -The intuition is that once a feature has been found, its exact location isn't as important as its rough location relative to other features. The function of the pooling layer is to progressively reduce the spatial size of the representation to reduce the amount of parameters and computation in the network, and hence to also control overfitting. It is common to periodically insert a pooling layer in-between successive conv layers in a CNN architecture. The pooling operation provides a form of translation invariance.


คุณช่วยอธิบายประโยคสุดท้ายได้The pooling operation provides a form of translation invarianceไหม?
HelloWorld

@StudentT หมายความว่าเอาต์พุตของ max-pool นั้นจะใกล้เคียงกันหากตรวจพบสถานที่ในภาพ ย้ายสิ่งต่าง ๆ ในรูปภาพที่เปิดใช้งานคุณลักษณะและอินพุตที่แตกต่างกันไปยัง max-pool จะสูงสุด แต่การเอา max-pool ออกควรจะเหมือนกัน
mrmcgreg

@mrmcgreg ฉันเชื่อว่าเป็นจริงสำหรับการรวมรวมกันทั่วโลกไม่ใช่การรวมกำไรสูงสุด Max pooling ให้ความแปรปรวนของการแปลท้องถิ่นภายในขอบเขตของพูล (เช่น 2x2) นี้ช่วยให้กระวนกระวายใจบางอย่างในคุณสมบัติ
geometrikal

0

Convolution นั้นทำการกรองภาพด้วยตัวกรองพิกเซลขนาดเล็กลงเพื่อลดขนาดของภาพโดยไม่สูญเสียความสัมพันธ์ระหว่างพิกเซล (พารามิเตอร์ของเครือข่าย) การรวมกำไรยังช่วยลดขนาดเชิงพื้นที่ด้วยการดึง Max, Avg หรือ Sum ของพิกเซลให้มีขนาด ของตัวกรองอย่างไรก็ตามอาจพลาดพารามิเตอร์สำคัญในกระบวนการที่การแปลงกลับมาใช้ใหม่โดยไม่ลดขนาดลงอย่างมีนัยสำคัญ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.