[คำถามนี้ถูกวางที่กองล้นเช่นกัน]
คำถามในระยะสั้น
ฉันกำลังศึกษาโครงข่ายประสาทเทียมและฉันเชื่อว่าเครือข่ายเหล่านี้ไม่ได้ปฏิบัติต่อเซลล์ประสาทอินพุต (พิกเซล / พารามิเตอร์) ทุกตัวเท่ากัน ลองจินตนาการว่าเรามีเครือข่ายที่ลึก (หลายเลเยอร์) ที่ใช้การแปลงภาพอินพุตบางส่วน เซลล์ประสาทใน "ตรงกลาง" ของภาพมีทางเดินที่ไม่ซ้ำกันหลายไปยังเซลล์ประสาทชั้นลึกที่มากขึ้นซึ่งหมายความว่าการเปลี่ยนแปลงเล็ก ๆ ในเซลล์ประสาทกลางมีผลอย่างมากต่อการส่งออก อย่างไรก็ตามเซลล์ประสาทที่ขอบของภาพมีเพียงวิธี (หรือขึ้นอยู่กับการดำเนินการตามลำดับที่1 ) ของเส้นทางที่ข้อมูลไหลผ่านกราฟ ดูเหมือนว่าสิ่งเหล่านี้เป็น "ภายใต้การเป็นตัวแทน"
ฉันกังวลเกี่ยวกับเรื่องนี้เนื่องจากการเลือกปฏิบัติของเซลล์ประสาทขอบขนาดนี้ ตัวอย่างมากด้วยความลึก (จำนวนชั้น) ของเครือข่าย แม้การเพิ่มเลเยอร์แบบรวมกำไรสูงสุดจะไม่หยุดการเพิ่มแบบเอ็กซ์โพเนนเชียล แต่การเชื่อมต่อแบบเต็มทำให้เซลล์ประสาททั้งหมดมีฐานรากเท่ากัน ฉันไม่เชื่อว่าเหตุผลของฉันถูกต้องแล้วดังนั้นคำถามของฉันคือ:
- ฉันถูกต้องไหมว่าเอฟเฟกต์นี้เกิดขึ้นในเครือข่ายการสนทนาเชิงลึก?
- มีทฤษฎีใดบ้างเกี่ยวกับเรื่องนี้เคยถูกกล่าวถึงในวรรณคดีหรือไม่?
- มีวิธีที่จะเอาชนะผลกระทบนี้หรือไม่?
เพราะฉันไม่แน่ใจว่านี่จะให้ข้อมูลที่เพียงพอหรือไม่ฉันจะอธิบายเพิ่มเติมเกี่ยวกับคำแถลงปัญหาอีกเล็กน้อยและทำไมฉันจึงเชื่อว่านี่เป็นข้อกังวล
คำอธิบายโดยละเอียดเพิ่มเติม
ลองนึกภาพเรามีเครือข่ายประสาทลึกที่ใช้ภาพเป็นอินพุท สมมติว่าเราใช้ฟิลเตอร์แบบ Convolutional เป็นตัวกรองขนาดพิกเซลเหนือภาพซึ่งเราจะทำการเปลี่ยนวินโดว์คอนวิชัน4พิกเซลในแต่ละครั้ง ซึ่งหมายความว่าเซลล์ประสาทในการป้อนข้อมูลทุกส่งยืนยันการใช้งานของมันไป16 × 16 = 265เซลล์ประสาทในชั้น2 แต่ละเซลล์เหล่านี้อาจส่งการเปิดใช้งานของพวกเขาไปยังอีก265เช่นเซลล์ประสาทสูงสุดของเราจะถูกแสดงใน265 2เซลล์ประสาทการส่งออกและอื่น ๆ
อย่างไรก็ตามนี่ไม่เป็นความจริงสำหรับเซลล์ประสาทที่อยู่บนขอบ: สิ่งเหล่านี้อาจถูกแสดงในหน้าต่างสังวัตนจำนวนเล็กน้อยเท่านั้นจึงทำให้พวกมันเปิดใช้งาน (จากคำสั่งของ) เพียงเซลล์ประสาทในชั้นถัดไป การใช้ลูกเล่นเช่นการทำมิเรอร์ตามขอบจะไม่ช่วยสิ่งนี้: เซลล์ประสาทชั้นที่สองที่คาดว่าจะยังคงอยู่ที่ขอบซึ่งหมายความว่าเซลล์ประสาทชั้นที่สองจะมีบทบาทต่ำกว่า (ดังนั้นการ จำกัด ความสำคัญของ เซลล์ประสาทของเราก็เช่นกัน) ดังที่เห็นได้ว่าความคลาดเคลื่อนนี้มีขนาดใหญ่ขึ้นเป็นทวีคูณตามจำนวนชั้น
ฉันสร้างภาพเพื่อให้เห็นภาพปัญหาซึ่งสามารถพบได้ที่นี่ (ฉันไม่ได้รับอนุญาตให้รวมภาพในโพสต์ของตัวเอง) เครือข่ายนี้มีหน้าต่างม้วนขนาด3ตัวเลขที่อยู่ถัดจากเซลล์ประสาทแสดงจำนวนของทางเดินลงไปยังเซลล์ประสาทที่ลึกที่สุด ภาพเป็นที่ระลึกสามเหลี่ยมปาสคาล
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0
เหตุใดจึงเป็นปัญหา
เอฟเฟกต์นี้ดูเหมือนจะไม่เป็นปัญหาตั้งแต่แรกเห็น: โดยหลักการแล้วน้ำหนักควรปรับโดยอัตโนมัติในลักษณะที่เครือข่ายทำงาน ยิ่งไปกว่านั้นขอบของรูปภาพนั้นไม่สำคัญสำหรับการจดจำรูปภาพ ผลกระทบนี้อาจไม่สามารถสังเกตเห็นได้ในการทดสอบการรับรู้ภาพในชีวิตประจำวัน แต่มันยังเกี่ยวข้องกับฉันด้วยเหตุผลสองประการ: 1. การวางนัยทั่วไปสำหรับแอปพลิเคชันอื่นและ 2.ปัญหาที่เกิดขึ้นในกรณีของเครือข่ายที่ลึกมาก
1.อาจมีแอปพลิเคชั่นอื่น ๆ เช่นการรู้จำเสียงพูดหรือเสียงซึ่งมันไม่เป็นความจริงว่าเซลล์ประสาทที่อยู่ตรงกลางส่วนใหญ่มีความสำคัญที่สุด การใช้การบิดมักจะทำในสาขานี้ แต่ฉันไม่สามารถหาเอกสารที่กล่าวถึงผลกระทบที่ฉันเกี่ยวข้องได้
ตอนนี้ลองคิดดูว่าเรารบกวนเซลล์ประสาททั้งหมดด้วยจำนวนเล็กน้อย เซลล์ประสาทส่วนกลางจะทำให้การส่งออกมีการเปลี่ยนแปลงอย่างรุนแรงมากขึ้นโดยหลายคำสั่งของขนาดเมื่อเทียบกับเซลล์ประสาทขอบ ฉันเชื่อว่าสำหรับแอปพลิเคชันทั่วไปและสำหรับเครือข่ายที่ลึกมากควรพบวิธีแก้ไขปัญหาของฉันได้อย่างไร