ทำไม ReLU ถูกใช้เป็นฟังก์ชั่นเปิดใช้งาน


19

ฟังก์ชั่นการเปิดใช้งานถูกใช้เพื่อแนะนำแบบไม่เชิงเส้นในเอาต์พุตเชิงเส้นของประเภทw * x + bในเครือข่ายประสาท

ซึ่งฉันสามารถเข้าใจอย่างสังหรณ์ใจสำหรับฟังก์ชั่นการเปิดใช้งานเช่น sigmoid

ฉันเข้าใจถึงข้อดีของ ReLU ที่หลีกเลี่ยงเซลล์ประสาทที่ตายแล้วในระหว่างการแพร่กระจาย อย่างไรก็ตามฉันไม่สามารถเข้าใจได้ว่าเหตุใด ReLU จึงถูกใช้เป็นฟังก์ชั่นการเปิดใช้งานหากเอาต์พุตของมันเป็นเส้นตรง

จุดทั้งหมดของการเป็นฟังก์ชั่นการเปิดใช้งานไม่ได้รับการพ่ายแพ้หรือไม่หากไม่ได้นำมาซึ่งความไม่เชิงเส้น

คำตอบ:


19

ในทางคณิตศาสตร์ฟังก์ชั่นถือว่าเป็นเชิงเส้นเมื่อใดก็ตามที่ fucntionถ้าทุกและในโดเมนมีคุณสมบัติดังต่อไปนี้: y) โดยนิยาม Relu เป็นx) ดังนั้นถ้าเราแยกโดเมนจากหรือดังนั้นฟังก์ชันจะเป็นเส้นตรง แต่มันเป็นเรื่องง่ายที่จะเห็นว่า(0) ดังนั้นโดยนิยาม ReLU ไม่เชิงเส้น x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - , 0 ] [ 0 , ) f ( - 1 ) + f ( 1 ) f ( 0 )f:ABxyAf(x)+f(y)=f(x+y)max(0,x)(,0][0,)f(1)+f(1)f(0)

อย่างไรก็ตาม ReLU นั้นใกล้เคียงกับเส้นตรงซึ่งมักทำให้ผู้คนสับสนและสงสัยว่ามันจะถูกนำมาใช้เป็นผู้ประมาณที่เป็นสากลได้อย่างไร จากประสบการณ์ของผมวิธีคิดที่ดีที่สุดเกี่ยวกับพวกเขาก็เหมือนกับผลรวมของ Riemann คุณสามารถประมาณฟังก์ชั่นต่อเนื่องใด ๆ ที่มีรูปสี่เหลี่ยมผืนผ้าเล็ก ๆ น้อย ๆ การเปิดใช้งาน ReLU สามารถสร้างรูปสี่เหลี่ยมขนาดเล็กจำนวนมากได้ ในความเป็นจริงในทางปฏิบัติ ReLU สามารถสร้างรูปทรงที่ค่อนข้างซับซ้อนและใกล้เคียงกับโดเมนที่ซับซ้อนมากมาย

ฉันก็รู้สึกอยากอธิบายอีกประเด็น ดังที่คำตอบก่อนหน้านี้เซลล์ประสาทไม่ตายใน Sigmoid แต่หายไป เหตุผลนี้เป็นเพราะที่สุดอนุพันธ์ของฟังก์ชัน sigmoid คือ. 25 ดังนั้นหลังจากหลายเลเยอร์คุณจะเพิ่มการไล่ระดับสีเหล่านี้และผลิตภัณฑ์ที่มีจำนวนน้อยมากน้อยกว่า 1 มักจะเป็นศูนย์อย่างรวดเร็ว

ดังนั้นหากคุณกำลังสร้างเครือข่ายการเรียนรู้อย่างลึกที่มีเลเยอร์จำนวนมากฟังก์ชั่น sigmoid ของคุณจะหยุดนิ่งอย่างรวดเร็วและไร้ประโยชน์ไม่มากก็น้อย

กุญแจสำคัญที่จะไปคือการหายตัวไปมาจากการไล่ระดับสีคูณไม่ไล่ระดับสีตัวเอง


6

ฉันเข้าใจถึงข้อดีของ ReLU ที่หลีกเลี่ยงเซลล์ประสาทที่ตายแล้วในระหว่างการแพร่กระจาย

สิ่งนี้ไม่เป็นความจริงอย่างสมบูรณ์ เซลล์ประสาทยังไม่ตาย หากคุณใช้การเปิดใช้งานที่คล้ายกับ sigmoid หลังจากการวนซ้ำบางค่าของการไล่ระดับสีอิ่มตัวสำหรับเซลล์ประสาทส่วนใหญ่ มูลค่าของการไล่ระดับสีจะมีขนาดเล็กมากและกระบวนการเรียนรู้เกิดขึ้นช้ามาก นี่คือการหายไปและการไล่ระดับสีที่ระเบิดในฟังก์ชั่นการเปิดใช้งานเหมือน sigmoid ตรงกันข้ามเซลล์ที่ตายแล้วอาจจะเกิดขึ้นถ้าคุณใช้ReLUไม่ใช่ linarity ซึ่งเรียกว่าตาย Relu

ฉันไม่สามารถเข้าใจได้ว่าเหตุใด ReLU จึงใช้เป็นฟังก์ชั่นการเปิดใช้งานหากเอาต์พุตเป็นแบบเส้นตรง

แน่นอนว่าไม่ใช่เชิงเส้น ฟังก์ชั่นเชิงเส้นเป็นฟังก์ชั่นที่มีอนุพันธ์แบบเดียวกันสำหรับอินพุตในโดเมน

ฟังก์ชั่นเชิงเส้นเป็นที่นิยมในสาขาเศรษฐศาสตร์ มันน่าสนใจเพราะมันง่ายและง่ายต่อการจัดการทางคณิตศาสตร์ มันมีแอพพลิเคชั่นที่สำคัญมากมาย ฟังก์ชันเชิงเส้นคือฟังก์ชันที่มีกราฟเป็นเส้นตรง ฟังก์ชันเชิงเส้นมีรูปแบบดังต่อไปนี้:

y = f (x) = a + bx

ฟังก์ชันเชิงเส้นมีตัวแปรอิสระหนึ่งตัวและตัวแปรตามหนึ่งตัว ตัวแปรอิสระคือ x และตัวแปรตามคือ y

a คือเทอมคงที่หรือค่าตัดแกน y มันเป็นค่าของตัวแปรตามเมื่อ x = 0

b คือสัมประสิทธิ์ของตัวแปรอิสระ มันเป็นที่รู้จักกันว่าลาดและให้อัตราการเปลี่ยนแปลงของตัวแปรตาม

ReLUไม่เป็นเชิงเส้น คำตอบง่ายๆก็คือReLUเอาต์พุตไม่ได้เป็นเส้นตรง แต่งอที่แกน x จุดที่น่าสนใจคือสิ่งที่เป็นผลมาจากการไม่เป็นเชิงเส้นนี้ กล่าวง่ายๆฟังก์ชั่นเชิงเส้นช่วยให้คุณสามารถแยกระนาบคุณสมบัติโดยใช้เส้นตรง แต่ด้วยความไม่เชิงเส้นของReLUs คุณสามารถสร้างเส้นโค้งที่มีรูปร่างตามอำเภอใจบนระนาบคุณลักษณะ

ReLUอาจมีข้อเสียซึ่งเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของReluและค่าที่คาดหวังจะไม่เป็นศูนย์ Tanhได้รับความนิยมมากกว่าsigmoidเพราะค่าที่คาดหวังเท่ากับศูนย์และการเรียนรู้ในชั้นลึก ๆ เกิดขึ้นเร็วขึ้น แม้ว่าReLUข้อได้เปรียบนี้จะไม่สามารถbatch normalizationแก้ไขปัญหานี้ได้

คุณสามารถอ้างอิงที่นี่และที่นี่สำหรับข้อมูลเพิ่มเติม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.