Backprop ผ่านเลเยอร์ Max-Pooling?

นี่เป็นคำถามเชิงแนวคิดขนาดเล็กที่จู้จี้ฉันอยู่ครู่หนึ่ง: เราจะเผยแพร่กลับผ่านเลเยอร์ max-pooling ในเครือข่ายประสาทได้อย่างไร

ฉันเจอเลเยอร์แบบรวมกำไรสูงสุดในขณะที่ทำตามบทช่วยสอนนี้สำหรับห้องสมุด nn ของ Torch 7 ไลบรารีจะสรุปการคำนวณการไล่ระดับสีและส่งต่อสำหรับแต่ละเลเยอร์ของเครือข่ายที่ลึก ฉันไม่เข้าใจวิธีการคำนวณการไล่ระดับสีสำหรับเลเยอร์ที่รวมกำไรสูงสุด

ฉันรู้ว่าถ้าคุณมีอินพุตเข้าสู่เซลล์ประสาทของเลเยอร์ดังนั้น (นิยามเป็น ) มอบให้โดย: ${z_i}^l$ $i$ $l$ ${\delta_i}^l$ ${\delta_i}^l = \frac{\partial E}{\partial {z_i}^l}$

{δ_{i}}^{l} = θ^{^{'}} ({z_{i}}^{l}) \sum_{j} {δ_{j}}^{l + 1} w_{i, j}^{l, l + 1}

${\delta_i}^l = \theta^{'}({z_i}^l) \sum_{j} {\delta_j}^{l+1} w_{i,j}^{l,l+1}$

ดังนั้นเลเยอร์ที่รวมกำไรสูงสุดจะได้รับของเลเยอร์ถัดไปตามปกติ แต่เนื่องจากฟังก์ชั่นการเปิดใช้งานสำหรับเซลล์ประสาท max-pooling ใช้เวลาในเวกเตอร์ของค่า (ซึ่งมัน maxes) เป็นอินพุตไม่ใช่หมายเลขเดียวอีกต่อไป แต่เวกเตอร์ (จะต้องถูกแทนที่ด้วย ) นอกจากนี้ซึ่งเป็นฟังก์ชันสูงสุดแล้วยังไม่สามารถแยกความแตกต่างได้ด้วยความเคารพของอินพุต ${\delta_j}^{l+1}$ ${\delta_i}^{l}$ $\theta^{'}({z_j}^l)$ $\nabla \theta(\left\{{z_j}^l\right\})$ $\theta$

ดังนั้น .... มันจะออกมาดียังไง

neural-network backpropagation

— shinvu
แหล่งที่มา

คำตอบ:

ไม่มีการไล่ระดับสีที่เกี่ยวข้องกับค่าที่ไม่ใช่ค่าสูงสุดเนื่องจากการเปลี่ยนค่าเล็กน้อยจะไม่มีผลกับเอาต์พุต ยิ่งไปกว่านั้นแม็กซ์ยังเป็นเส้นตรงในพื้นที่ที่มีความชัน 1 ด้วยความเคารพต่ออินพุตที่ได้รับค่าสูงสุด ดังนั้นการไล่ระดับสีจากเลเยอร์ถัดไปจะถูกส่งกลับไปยังเซลล์ประสาทที่มีค่าสูงสุดเท่านั้น เซลล์อื่น ๆ ทั้งหมดจะได้รับการไล่ระดับเป็นศูนย์

ดังนั้นในตัวอย่างของคุณจะเป็นเวกเตอร์ของศูนย์ทั้งหมดยกเว้นว่าตำแหน่ง th จะได้รับค่าโดยที่ $\delta_i^l$ $i^*$ $\left\{\delta_j^{l+1}\right\}$ $i^* = argmax_{i} (z_i^l)$

— abora
แหล่งที่มา

โอ้ใช่แล้วไม่มีประเด็นใดที่จะเผยแผ่ผ่านทางเซลล์ประสาทที่ไม่ใช่ค่าสูงสุด - นั่นเป็นข้อมูลเชิงลึกที่สำคัญ ดังนั้นถ้าตอนนี้ฉันเข้าใจสิ่งนี้อย่างถูกต้องการเผยแพร่กลับผ่านเลเยอร์รวมกำไรสูงสุดเพียงแค่เลือกค่าสูงสุด เซลล์ประสาทจากเลเยอร์ก่อนหน้า (ซึ่งรวมถึงการรวมกันสูงสุด) และดำเนินการเผยแพร่กลับผ่านไปเรื่อย ๆ

— shinvu

แต่คุณไม่จำเป็นต้องคูณกับอนุพันธ์ของฟังก์ชั่นการเปิดใช้งานหรือไม่?

— Jason

@Jason: ฟังก์ชั่น max เป็นแบบเส้นตรงในพื้นที่สำหรับการเปิดใช้งานที่มีค่าสูงสุดดังนั้นอนุพันธ์ของมันจึงเป็นค่าคงที่ 1 สำหรับการเปิดใช้งานที่ไม่ได้ผ่านมันเป็น 0 นั่นเป็นแนวคิดที่คล้ายกันมากกับการแยก ReLU (x ) = ฟังก์ชั่นการเปิดใช้งานสูงสุด (0, x)

— Chrigi

stride น้อยกว่าความกว้างของเคอร์เนลสำหรับการรวมกำไรสูงสุดคืออะไร?

— Vatsal

คำตอบที่ดี! กรณีขอบที่หลายรายการมีค่าสูงสุดเท่ากัน (ตัวอย่างเช่น 2 ค่ามี 0 จาก ReLU และอีกสองรายการเป็นค่าลบ)

— DankMasterDan

รวมกำไรสูงสุด

สมมติว่าคุณมีเลเยอร์ P ซึ่งอยู่ด้านบนของเลเยอร์ PR จากนั้นรหัสผ่านจะเป็นดังนี้:

$P_i = f(\sum_j W_{ij} PR_j)$ ,

ที่คือการกระตุ้นของ ith เซลล์ประสาทของเลเยอร์ P, f คือฟังก์ชันการเปิดใช้งานและ W คือน้ำหนัก ดังนั้นหากคุณได้รับสิ่งนั้นโดยกฎลูกโซ่คุณจะได้รับการไล่ระดับสีดังนี้: $P_i$

$grad(PR_j) = \sum_i grad(P_i) f^\prime W_{ij}$ {IJ}

แต่ตอนนี้ถ้าคุณมีพูลรวมสูงสุด สำหรับ max neuron และสำหรับ neurons อื่นทั้งหมดดังนั้นสำหรับ max neuron ใน layer ก่อนหน้าและสำหรับ other เซลล์ประสาท ดังนั้น: $f = id$ $f = 0$ $f^\prime = 1$ $f^\prime = 0$

$grad(PR_{max\ neuron}) = \sum_i grad(P_i) W_{i\ {max\ neuron}}$ ,

$grad(PR_{others}) = 0.$

— patapouf_ai
แหล่งที่มา

@ คำตอบของ Shinvu เขียนได้ดีฉันอยากจะชี้ไปที่วิดีโอที่อธิบายการไล่ระดับสีของการดำเนินการ Max ()และสิ่งนี้อยู่ในกราฟการคำนวณที่เข้าใจง่าย!

ในขณะที่ใช้งานการดำเนินการ maxpool (โหนดการคำนวณในกราฟการคำนวณ - สถาปัตยกรรม NN ของคุณ) เราต้องการฟังก์ชั่นที่สร้างเมทริกซ์ "มาสก์" ซึ่งคอยติดตามตำแหน่งที่เมทริกซ์สูงสุดอยู่ True (1) ระบุตำแหน่งสูงสุดใน X ส่วนรายการอื่น ๆ เป็น False (0) เราติดตามตำแหน่งสูงสุดเพราะนี่คือค่าอินพุตที่มีผลต่อผลลัพธ์ในที่สุดและดังนั้นจึงมีค่าใช้จ่าย Backprop คือการคำนวณการไล่ระดับสีด้วยความเคารพต่อค่าใช้จ่ายดังนั้นสิ่งใดก็ตามที่มีผลต่อต้นทุนสูงสุดควรมีการไล่ระดับสีที่ไม่ใช่ศูนย์ ดังนั้น backprop จะ "แพร่กระจาย" การไล่ระดับสีกลับสู่ค่าอินพุตเฉพาะที่มีผลต่อต้นทุน

— Anu
แหล่งที่มา