4
ทำไม tanh เกือบดีกว่า sigmoid ในฐานะฟังก์ชั่นการเปิดใช้งานเกือบทุกครั้ง
ในแอนดรูอึ้งของหลักสูตรโครงข่ายประสาทและลึกการเรียนรู้เกี่ยวกับ Courseraเขากล่าวว่าการใช้มักจะดีกว่าที่จะใช้sigmoidtanhtanhtanhsigmoidsigmoidsigmoid เหตุผลที่เขาให้คือผลลัพธ์ที่ใช้ศูนย์ประมาณ 0 มากกว่า 's 0.5 และสิ่งนี้ "ทำให้การเรียนรู้สำหรับชั้นถัดไปง่ายขึ้นเล็กน้อย"tanhtanhtanhsigmoidsigmoidsigmoid เหตุใดการทำให้การเรียนรู้ความเร็วของการเปิดใช้งานเป็นศูนย์อยู่ตรงกลาง ฉันคิดว่าเขาพูดถึงเลเยอร์ก่อนหน้านี้เมื่อการเรียนรู้เกิดขึ้นระหว่างการทำโพสต์? มีคุณสมบัติอื่น ๆ ที่ทำให้ดีกว่า ? การไล่ระดับสีชันช้ากว่าจะทำให้การไล่ระดับสีหายไปหรือไม่tanhtanhtanh มีสถานการณ์ใดบ้างที่น่าจะดีกว่า?sigmoidsigmoidsigmoid ต้องการคำตอบทางคณิตศาสตร์ที่เข้าใจง่าย