การเริ่มต้นน้ำหนักของ CNN ซาเวียร์
ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบันVar(W)Var(W)Var(W)ninninn_{in}noutnoutn_{out} มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional? ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)ดังนั้นขนาดเคอร์เนลคือการ5x5กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8แผนที่คุณลักษณะ ... จะถูก3พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3เพราะอินพุตเป็น5x5แพตช์สำหรับแต่ละช่องสี ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ