ที่นี่คำตอบหมายถึงการหายไปและการไล่ระดับสีแบบกระจายที่sigmoid
ฟังก์ชั่นการเปิดใช้งานเหมือนกัน แต่ฉันเดาว่าRelu
มีข้อเสียและเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของRelu
ดังนั้นค่าที่คาดหวังจะไม่เป็นศูนย์ ผมจำได้ว่าช่วงเวลาก่อนที่ความนิยมของRelu
ที่เป็นที่นิยมมากที่สุดในหมู่เครื่องผู้เชี่ยวชาญด้านการเรียนรู้มากกว่าtanh
sigmoid
เหตุผลก็คือค่าที่คาดหวังของtanh
ศูนย์เท่ากับและมันช่วยให้การเรียนรู้ในชั้นลึกจะเร็วขึ้นในโครงข่ายประสาท Relu
ไม่มีคุณสมบัตินี้ แต่ทำไมมันถึงทำงานได้ดีถ้าเราเอาความได้เปรียบเชิงอนุพันธ์มาใช้ ยิ่งกว่านั้นฉันคิดว่าอนุพันธ์อาจได้รับผลกระทบด้วย เพราะการเปิดใช้งาน (ผลลัพธ์ของRelu
) มีส่วนร่วมในการคำนวณกฎการอัพเดท
CNN
normalizing ผลลัพธ์ของการrelu
ไม่ธรรมดา? อย่างน้อยฉันก็ไม่เคยเห็นสิ่งนั้น