ประโยชน์ของการใช้ ReLU บน softplus เป็นฟังก์ชันการเปิดใช้งานคืออะไร


21

มีการกล่าวถึงบ่อยครั้งว่าหน่วยเชิงเส้นที่ได้รับการแก้ไข (ReLU) มีหน่วย softplus ที่ถูกแทนที่เพราะหน่วยนั้นเป็นเส้นตรงและเร็วกว่าในการคำนวณ

ซอฟต์พลัสนั้นยังคงมีข้อดีของการชักนำให้เกิด sparsity หรือถูก จำกัด อยู่ที่ ReLU หรือไม่?

เหตุผลที่ฉันถามคือฉันสงสัยเกี่ยวกับผลกระทบเชิงลบของความชันศูนย์ของ ReLU คุณสมบัติ "กับดัก" ของคุณสมบัตินี้ไม่เป็นศูนย์ซึ่งอาจเป็นประโยชน์ที่จะให้พวกเขามีโอกาสในการเปิดใช้งานอีกครั้งหรือไม่


คุณเคยพบคำตอบนี้หรือไม่?
Charlie Parker

คำตอบ:


4

ฉันพบคำตอบสำหรับคำถามของคุณในหัวข้อ 6.3.3 ของหนังสือการเรียนรู้ลึก (Goodfellow et. al, 2016):

การใช้งาน softplus นั้นไม่ได้รับการสนับสนุน ... ใครบางคนอาจคาดหวังว่ามันจะมีความได้เปรียบเหนือวงจรเรียงกระแสเนื่องจากมีความแตกต่างกันทุกหนทุกแห่งหรือเนื่องมาจากความอิ่มตัวน้อยลงอย่างสมบูรณ์ แต่สังเกตุไม่ได้

เพื่อเป็นการอ้างอิงเพื่อสนับสนุนการอ้างสิทธิ์นี้พวกเขาอ้างถึงเครือข่ายโครงข่ายประสาทวิทยาDeep Sparse Rectifier (Glorot และคณะ, 2011)


1
ฉันคิดว่าเราต้องการคำอธิบายที่ชัดเจนยิ่งขึ้นเกี่ยวกับ "แต่สังเกตุไม่ได้"
nbro

2

ReLUs สามารถปิดได้อย่างถาวรโดยเฉพาะอย่างยิ่งภายใต้อัตราการเรียนรู้ที่สูง นี่เป็นแรงจูงใจเบื้องหลังการเปิดใช้งาน ReLU และการเปิดใช้งาน ELU ซึ่งทั้งสองแบบมีการไล่ระดับสีที่ไม่เป็นศูนย์เกือบทุกที่

Leaky ReLU เป็นฟังก์ชันเชิงเส้นแบบชิ้นเดียวสำหรับ ReLU ดังนั้นจึงสามารถคำนวณได้อย่างรวดเร็ว ELU มีข้อได้เปรียบมากกว่า softmax และ ReLU ซึ่งหมายความว่าเอาต์พุตใกล้ถึงศูนย์ซึ่งช่วยปรับปรุงการเรียนรู้


"เกือบทุกที่" หมายความว่าอย่างไร
nbro

1
"เกือบทุกที่" เป็นคำศัพท์ทางเทคนิคที่มีความหมายว่า "ยกเว้นจุดเล็ก ๆ ไม่กี่จุด" ตัวอย่างเช่น ReLU ที่มีการรั่วไหลไม่มีการไล่ระดับสีที่ x = 0
Hugh Perkins
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.