ในทางคณิตศาสตร์ฟังก์ชั่นถือว่าเป็นเชิงเส้นเมื่อใดก็ตามที่ fucntionถ้าทุกและในโดเมนมีคุณสมบัติดังต่อไปนี้: y) โดยนิยาม Relu เป็นx) ดังนั้นถ้าเราแยกโดเมนจากหรือดังนั้นฟังก์ชันจะเป็นเส้นตรง แต่มันเป็นเรื่องง่ายที่จะเห็นว่า(0) ดังนั้นโดยนิยาม ReLU ไม่เชิงเส้น x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - ∞ , 0 ] [ 0 , ∞ ) f ( - 1 ) + f ( 1 ) ≠ f ( 0 )ฉ: A → BxYAฉ( x ) + f( y) = f( x + y)m a x ( 0 , x )( - ∞ , 0 ][ 0 , ∞ )ฉ( - 1 ) + f( 1 ) ≠ f( 0 )
อย่างไรก็ตาม ReLU นั้นใกล้เคียงกับเส้นตรงซึ่งมักทำให้ผู้คนสับสนและสงสัยว่ามันจะถูกนำมาใช้เป็นผู้ประมาณที่เป็นสากลได้อย่างไร จากประสบการณ์ของผมวิธีคิดที่ดีที่สุดเกี่ยวกับพวกเขาก็เหมือนกับผลรวมของ Riemann คุณสามารถประมาณฟังก์ชั่นต่อเนื่องใด ๆ ที่มีรูปสี่เหลี่ยมผืนผ้าเล็ก ๆ น้อย ๆ การเปิดใช้งาน ReLU สามารถสร้างรูปสี่เหลี่ยมขนาดเล็กจำนวนมากได้ ในความเป็นจริงในทางปฏิบัติ ReLU สามารถสร้างรูปทรงที่ค่อนข้างซับซ้อนและใกล้เคียงกับโดเมนที่ซับซ้อนมากมาย
ฉันก็รู้สึกอยากอธิบายอีกประเด็น ดังที่คำตอบก่อนหน้านี้เซลล์ประสาทไม่ตายใน Sigmoid แต่หายไป เหตุผลนี้เป็นเพราะที่สุดอนุพันธ์ของฟังก์ชัน sigmoid คือ. 25 ดังนั้นหลังจากหลายเลเยอร์คุณจะเพิ่มการไล่ระดับสีเหล่านี้และผลิตภัณฑ์ที่มีจำนวนน้อยมากน้อยกว่า 1 มักจะเป็นศูนย์อย่างรวดเร็ว
ดังนั้นหากคุณกำลังสร้างเครือข่ายการเรียนรู้อย่างลึกที่มีเลเยอร์จำนวนมากฟังก์ชั่น sigmoid ของคุณจะหยุดนิ่งอย่างรวดเร็วและไร้ประโยชน์ไม่มากก็น้อย
กุญแจสำคัญที่จะไปคือการหายตัวไปมาจากการไล่ระดับสีคูณไม่ไล่ระดับสีตัวเอง