การปรับสภาพแบทช์และ ReLU เป็นวิธีแก้ปัญหาการไล่ระดับสีที่หายไป หากเราใช้การทำให้เป็นมาตรฐานเป็นชุดเราควรใช้ sigmoids ไหม? หรือมีคุณสมบัติของ ReLUs ที่ทำให้พวกเขามีค่าแม้เมื่อใช้ batchnorm?
ฉันคิดว่าการฟื้นฟูที่ทำใน batchnorm จะส่งการเปิดใช้งานเป็นศูนย์เชิงลบ นั่นหมายความว่า batchnorm แก้ปัญหา "dead ReLU" หรือไม่?
แต่ธรรมชาติอย่างต่อเนื่องของ tanh และ logistic ยังคงน่าสนใจ ถ้าฉันใช้ batchnorm tanh จะทำงานได้ดีกว่า ReLU หรือไม่
ฉันแน่ใจว่าคำตอบขึ้นอยู่กับ ดังนั้นประสบการณ์ทำงานของคุณคืออะไรและคุณสมบัติเด่นของแอปพลิเคชันของคุณคืออะไร