เซลล์ประสาท ReLU เอาต์พุตเป็นศูนย์และมีศูนย์อนุพันธ์สำหรับอินพุตลบทั้งหมด ดังนั้นหากน้ำหนักในเครือข่ายของคุณมักนำไปสู่การป้อนข้อมูลเชิงลบในเซลล์ประสาท ReLU เซลล์ประสาทนั้นไม่ได้มีส่วนร่วมในการฝึกอบรมของเครือข่ายอย่างมีประสิทธิภาพ ในทางคณิตศาสตร์การทำเกรเดียนต์ของการปรับปรุงน้ำหนักที่มาจากเซลล์ประสาทนั้นจะเป็นศูนย์เสมอ (ดูรายละเอียดทางคณิตศาสตร์สำหรับภาคผนวก)
L(W)LLWL
โดยทั่วไปสิ่งที่เกิดขึ้นนั้นขึ้นอยู่กับว่าข้อมูลไหลผ่านเครือข่ายอย่างไร คุณสามารถจินตนาการได้ว่าเมื่อการฝึกอบรมดำเนินไปเรื่อย ๆ เซลล์ประสาทที่สร้างคุณค่าสามารถลอยไปมาและทำให้เป็นไปได้ที่น้ำหนักจะฆ่าการไหลของข้อมูลทั้งหมดผ่านบางส่วน (บางครั้งพวกเขาอาจออกจากการกำหนดค่าที่ไม่พึงประสงค์เหล่านี้เนื่องจากการอัปเดตน้ำหนักก่อนหน้านี้ในเครือข่าย แต่!) ฉันสำรวจความคิดนี้ในบล็อกโพสต์เกี่ยวกับการเริ่มต้นน้ำหนัก - ซึ่งสามารถนำไปสู่ปัญหานี้ - และความสัมพันธ์กับการไหลของข้อมูล ฉันคิดว่าจุดของฉันที่นี่สามารถแสดงโดยพล็อตจากบทความนั้น:
พล็อตแสดงการเปิดใช้งานใน 5 เลเยอร์ Multi-Layer Perceptron พร้อมการเปิดใช้งาน ReLU หลังจากผ่านไปหนึ่งครั้งผ่านเครือข่ายด้วยกลยุทธ์การเริ่มต้นที่แตกต่างกัน คุณจะเห็นว่าขึ้นอยู่กับการกำหนดค่าน้ำหนักผลลัพธ์ของเครือข่ายของคุณสามารถถูกปิดได้
ภาคผนวกทางคณิตศาสตร์
Lx(i)jjif(s)=max(0,s)s(i)j(i+1)i(i+1)
∂L∂w(i)jk=∂L∂x(i+1)k∂x(i+1)k∂w(i)jk.
คำแรกทางด้านขวาสามารถคำนวณซ้ำได้ ที่สองทางด้านขวาเป็นสถานที่แห่งเดียวที่เกี่ยวข้องโดยตรงกับน้ำหนักและสามารถแยกย่อยเป็นw(i)jk
∂x(i+1)k∂w(i)jk=∂f(s(i)j)∂s(i)j∂s(i)j∂w(i)jk=f′(s(i)j)x(i)j.
จากนี้คุณจะเห็นได้ว่าหากผลลัพธ์เป็นลบเสมอน้ำหนักที่นำไปสู่เซลล์ประสาทจะไม่ได้รับการปรับปรุงและเซลล์ประสาทไม่ได้มีส่วนช่วยในการเรียนรู้