การนอร์มัลแบตช์หมายถึงว่า sigmoids ทำงานได้ดีกว่า ReLUs หรือไม่?

9

การปรับสภาพแบทช์และ ReLU เป็นวิธีแก้ปัญหาการไล่ระดับสีที่หายไป หากเราใช้การทำให้เป็นมาตรฐานเป็นชุดเราควรใช้ sigmoids ไหม? หรือมีคุณสมบัติของ ReLUs ที่ทำให้พวกเขามีค่าแม้เมื่อใช้ batchnorm?

ฉันคิดว่าการฟื้นฟูที่ทำใน batchnorm จะส่งการเปิดใช้งานเป็นศูนย์เชิงลบ นั่นหมายความว่า batchnorm แก้ปัญหา "dead ReLU" หรือไม่?

แต่ธรรมชาติอย่างต่อเนื่องของ tanh และ logistic ยังคงน่าสนใจ ถ้าฉันใช้ batchnorm tanh จะทำงานได้ดีกว่า ReLU หรือไม่

ฉันแน่ใจว่าคำตอบขึ้นอยู่กับ ดังนั้นประสบการณ์ทำงานของคุณคืออะไรและคุณสมบัติเด่นของแอปพลิเคชันของคุณคืออะไร

deep-learning batch-normalization

— generic_user
แหล่งที่มา

แม้ว่ากระดาษจะแนะนำให้ใช้ BatchNorm ก่อนเปิดใช้งาน แต่ก็พบว่าในทางปฏิบัติแล้ววิธีการแก้ปัญหาที่ดีกว่านั้นจะให้ผลดีถ้าใช้ BN หลังจากนั้น หากฉันไม่มองข้ามบางสิ่งที่ควรหมายความว่าในกรณีหลัง BN ไม่มีผลต่อการเปิดใช้งาน แต่แน่นอนว่าเป็นคำถามเปิดถ้า BN จะทำงานได้ดีขึ้นเมื่อใช้ก่อนและเปิดใช้งานอีกกว่า ReLU ในความคิดของฉันไม่มี เพราะ ReLU ยังมีข้อได้เปรียบอื่น ๆ เช่นการสืบทอดที่ง่ายกว่า แต่ฉันก็อยากรู้อยากเห็น อาจมีคนสร้างประสบการณ์ในสาขานี้

— oezguensi

1

ดูแนวคิดพื้นฐานที่อยู่เบื้องหลังชุดการทำให้เป็นมาตรฐานคือ (ตัดตอนมาจากบทความขนาดกลาง) -

เราทำให้เลเยอร์อินพุตปกติของเราโดยการปรับและปรับขนาดการเปิดใช้งาน ตัวอย่างเช่นเมื่อเรามีคุณสมบัติตั้งแต่ 0 ถึง 1 และบางส่วนจาก 1 ถึง 1,000 เราควรทำให้เป็นมาตรฐานสำหรับการเรียนรู้ได้เร็วขึ้น หากเลเยอร์อินพุตได้ประโยชน์จากมันทำไมไม่ทำแบบเดียวกันกับค่าในเลเยอร์ที่ซ่อนอยู่ซึ่งกำลังเปลี่ยนแปลงอยู่ตลอดเวลาและเพิ่มความเร็วในการฝึกอบรม 10 เท่าหรือมากกว่า

อ่านบทความที่นี่

นี่คือเหตุผลที่เราใช้ Batch-normalization ตอนนี้มาถึงคำถามของคุณดูว่าผลลัพธ์ของ sigmoid เป็นข้อ จำกัด ระหว่าง 0 และ 1 และคำขวัญของ Batch-normalization คืออะไร ถ้าเราใช้ Bach-normalization กับการเปิดใช้งาน sigmoid มันจะถูก จำกัด ระหว่าง sigmoid (0) ถึง sigmoid (1) ที่อยู่ระหว่าง 0.5 ถึง 0.73 ~ $frac{1}/{(1+1/e)}$ . แต่ถ้าเราใช้ ReLU กับ Batch-normalization ผลลัพธ์จะถูกกระจายไปที่ 0 ถึง 1 ซึ่งเป็นสิ่งที่ดีสำหรับเราในที่สุดเราต้องการผลลัพธ์ที่หลากหลายที่สุดเท่าที่จะทำได้ ดังนั้นฉันคิดว่า ReLU จะเป็นตัวเลือกที่ดีที่สุดในการเปิดใช้งานอื่น ๆ

— คนบ้า
แหล่งที่มา

0

madman ตอบคำถามของคุณเกี่ยวกับการปรับสภาพแบทช์ให้ถูกต้องและให้ฉันตอบส่วนที่สองของคุณว่าฟังก์ชั่นต่อเนื่องอาจดูน่าสนใจ แต่ relu ดีกว่าพวกเขาทั้งหมดและคำสั่งนี้ไม่ได้มาจาก MR ของฉัน Hinton อ้างว่า "เราเป็นคนโง่ที่ใช้ sigmoid เป็นฟังก์ชั่นการเปิดใช้งานและใช้เวลา 30 ปีกว่าที่การรับรู้จะเกิดขึ้นโดยที่ไม่เข้าใจรูปแบบของมันมันจะไม่ปล่อยให้เซลล์ประสาทของคุณไปอยู่ในสภาวะการเรียนรู้ เขาเรียกตัวเองและคนอื่น ๆ ที่ทำให้คนอื่นตะลึง "ดังนั้นการเลือกฟังก์ชั่นการเปิดใช้งานเพียงเพราะมันต่อเนื่องและไม่ได้ดูว่ามันจะส่งผลต่อเซลล์ประสาทของคุณอย่างไร

หมายเหตุ: หากคุณกำลังศึกษาอวนประสาทฉันอยากจะแนะนำให้คุณคิดว่าอวนประสาทเป็นฟังก์ชั่นคอมโพสิตที่มีขนาดใหญ่และลึกเพื่อที่จะเข้าใจว่าอะไรทำงานอย่างไรและทำไมมันจึงทำงานคุณต้องเข้าใจว่าโครงข่ายประสาทเทียม "ข้อมูลที่ความดีของนานาขึ้นอยู่กับการเลือกฟังก์ชั่นของคุณและวิธีการที่ฟังก์ชั่นเปลี่ยนฟังก์ชั่นอื่น ๆ ที่ส่งออกเมื่อให้มันเป็นอินพุท

— ควาจา Wisal
แหล่งที่มา