ประโยชน์ของการใช้ ReLU บน softplus เป็นฟังก์ชันการเปิดใช้งานคืออะไร

21

มีการกล่าวถึงบ่อยครั้งว่าหน่วยเชิงเส้นที่ได้รับการแก้ไข (ReLU) มีหน่วย softplus ที่ถูกแทนที่เพราะหน่วยนั้นเป็นเส้นตรงและเร็วกว่าในการคำนวณ

ซอฟต์พลัสนั้นยังคงมีข้อดีของการชักนำให้เกิด sparsity หรือถูก จำกัด อยู่ที่ ReLU หรือไม่?

เหตุผลที่ฉันถามคือฉันสงสัยเกี่ยวกับผลกระทบเชิงลบของความชันศูนย์ของ ReLU คุณสมบัติ "กับดัก" ของคุณสมบัตินี้ไม่เป็นศูนย์ซึ่งอาจเป็นประโยชน์ที่จะให้พวกเขามีโอกาสในการเปิดใช้งานอีกครั้งหรือไม่

machine-learning neural-networks

— brockl33
แหล่งที่มา

คุณเคยพบคำตอบนี้หรือไม่?

— Charlie Parker

4

ฉันพบคำตอบสำหรับคำถามของคุณในหัวข้อ 6.3.3 ของหนังสือการเรียนรู้ลึก (Goodfellow et. al, 2016):

การใช้งาน softplus นั้นไม่ได้รับการสนับสนุน ... ใครบางคนอาจคาดหวังว่ามันจะมีความได้เปรียบเหนือวงจรเรียงกระแสเนื่องจากมีความแตกต่างกันทุกหนทุกแห่งหรือเนื่องมาจากความอิ่มตัวน้อยลงอย่างสมบูรณ์ แต่สังเกตุไม่ได้

เพื่อเป็นการอ้างอิงเพื่อสนับสนุนการอ้างสิทธิ์นี้พวกเขาอ้างถึงเครือข่ายโครงข่ายประสาทวิทยาDeep Sparse Rectifier (Glorot และคณะ, 2011)

— Alexander Shchur
แหล่งที่มา

1

ฉันคิดว่าเราต้องการคำอธิบายที่ชัดเจนยิ่งขึ้นเกี่ยวกับ "แต่สังเกตุไม่ได้"

— nbro

2

ReLUs สามารถปิดได้อย่างถาวรโดยเฉพาะอย่างยิ่งภายใต้อัตราการเรียนรู้ที่สูง นี่เป็นแรงจูงใจเบื้องหลังการเปิดใช้งาน ReLU และการเปิดใช้งาน ELU ซึ่งทั้งสองแบบมีการไล่ระดับสีที่ไม่เป็นศูนย์เกือบทุกที่

Leaky ReLU เป็นฟังก์ชันเชิงเส้นแบบชิ้นเดียวสำหรับ ReLU ดังนั้นจึงสามารถคำนวณได้อย่างรวดเร็ว ELU มีข้อได้เปรียบมากกว่า softmax และ ReLU ซึ่งหมายความว่าเอาต์พุตใกล้ถึงศูนย์ซึ่งช่วยปรับปรุงการเรียนรู้

— Hugh Perkins
แหล่งที่มา

"เกือบทุกที่" หมายความว่าอย่างไร

— nbro

1

"เกือบทุกที่" เป็นคำศัพท์ทางเทคนิคที่มีความหมายว่า "ยกเว้นจุดเล็ก ๆ ไม่กี่จุด" ตัวอย่างเช่น ReLU ที่มีการรั่วไหลไม่มีการไล่ระดับสีที่ x = 0

— Hugh Perkins