ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท
สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้:
โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบัน
มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional?
ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)
ดังนั้นขนาดเคอร์เนลคือการ5x5
กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8
แผนที่คุณลักษณะ ... จะถูก3
พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3
เพราะอินพุตเป็น5x5
แพตช์สำหรับแต่ละช่องสี
ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ