คำตอบทั่วไปเกี่ยวกับพฤติกรรมของการรวมฟังก์ชั่นการเปิดใช้งานทั่วไปคือต้องใช้กฎของแคลคูลัสโดยเฉพาะแคลคูลัสที่แตกต่างกันโดยเฉพาะผลที่ได้จะต้องได้รับจากการทดลองเพื่อให้แน่ใจว่ามีคุณสมบัติของฟังก์ชันที่ประกอบกัน เพิ่มเวลาในการคำนวณ ข้อยกเว้นสำหรับการเพิ่มขึ้นดังกล่าวจะเกิดขึ้นเมื่อภาระการคำนวณของชุดค่าผสมมีขนาดเล็กเมื่อเทียบกับข้อดีของการลู่เข้าที่ชุดค่าผสมจะให้
สิ่งนี้ดูเหมือนจะเป็นจริงของ Swish ชื่อที่กำหนดให้กับฟังก์ชันการเปิดใช้งานที่กำหนดเป็น
ฉ( x ) = xS (βx ),
ที่ไหน ฉ( ) คือฟังก์ชั่นเปิดใช้งาน Swish และ Sเป็นฟังก์ชั่น sigmoid โปรดทราบว่า Swish ไม่ได้เป็นการผสมผสานระหว่างฟังก์ชันการเปิดใช้งานอย่างเคร่งครัด มันถูกสร้างขึ้นโดยการเพิ่มพารามิเตอร์ไฮเปอร์β ภายในฟังก์ชั่น sigmoid และการคูณของอินพุตกับผลลัพธ์ของฟังก์ชัน sigmoid
ดูเหมือนจะไม่ได้รับการพัฒนาโดย Google กระดาษที่ส่งโดยไม่ระบุชื่อเดิม (สำหรับการตรวจสอบคนตาบอดสองเท่าในกระดาษ ICLR 2018), ค้นหาฟังก์ชั่นการเปิดใช้งานถูกประพันธ์โดย Prajit Ramachandran, Barret Zoph และ Quoc V. Le ประมาณปี 2017 นี่คือการเรียกร้องของพวกเขา
การทดลองของเราแสดงให้เห็นว่าฟังก์ชั่นการเปิดใช้งานที่ค้นพบที่ดีที่สุด, ... หวด, ... มีแนวโน้มที่จะทำงานได้ดีกว่า ReLU ในแบบจำลองที่ลึกกว่าในชุดข้อมูลที่ท้าทายจำนวนหนึ่ง
การเปิดใช้งานฟังก์ชั่นการเปิดใช้งานกับเลเยอร์ใด ๆ จะยกเว้นในกรณีที่หายากทางดาราศาสตร์ความแม่นยำในการกระแทกความน่าเชื่อถือและประสิทธิภาพในการคำนวณ การเปลี่ยนแปลงที่สำคัญนั้นไม่สามารถสรุปได้หรือไม่ นั่นเป็นเหตุผลที่ความคิดใหม่ ๆ จะมีการทดสอบกับชุดข้อมูลแบบดั้งเดิมที่ใช้ในการวัดประโยชน์1
การรวมฟังก์ชั่นการเปิดใช้งานเข้ากับฟังก์ชั่นการเปิดใช้งานใหม่นั้นไม่ใช่เรื่องปกติ ตัวอย่างเช่น AlexNet ไม่ได้รวมเข้าด้วยกัน 2 . อย่างไรก็ตามเป็นเรื่องธรรมดามากที่จะใช้ฟังก์ชั่นเปิดใช้งานที่แตกต่างกันในเลเยอร์ต่างๆของการออกแบบเครือข่ายที่มีประสิทธิภาพ
เชิงอรรถ
[1] ประเพณีเหล่านี้สร้างอคติหรือไม่เป็นคำถามอื่น ผู้ที่ปฏิบัติตามทฤษฎีการวิเคราะห์กรณีการใช้งานเป็นผู้บุกเบิกโดยนักวิทยาศาสตร์คอมพิวเตอร์ชาวสวีเดน Ivar Hjalmar Jacobson หรือ 6 แนวคิดของ Sigma จะกล่าวว่าการทดสอบเหล่านี้เป็นการทดสอบหน่วยไม่ใช่การทดสอบการใช้งานกับกรณีการใช้งานจริงของโลก
[2] เพื่อแก้ไขความเข้าใจที่คลาดเคลื่อนที่อาจเกิดขึ้นจากคำตอบอื่น AlexNet ชื่อที่ให้ไว้กับแนวทางการจำแนกประเภท ImageNet ด้วย Deep Convolutional Neural Networks (2012) โดย Alex Krizhevsky, Ilya Sutskever และ Geoffrey E. Hinton จากมหาวิทยาลัย โตรอนโตไม่เกี่ยวข้องกับการรวมฟังก์ชั่นการเปิดใช้งานเพื่อสร้างใหม่ พวกเขาเขียนสิ่งนี้
เอาต์พุตของเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ล่าสุดจะถูกป้อนไปยัง softmax 1000-way ซึ่งจะสร้างการกระจายผ่านฉลากคลาส 1000
...
ReLU ไม่ใช่เชิงเส้นถูกนำไปใช้กับการส่งออกของทุกชั้น convolutional และเชื่อมต่ออย่างเต็มที่ ชั้นภายในเป็น ReLU บริสุทธิ์และชั้นผลลัพธ์คือ Softmax
นอกจากนี้ยังมีเคอร์เนลและเลเยอร์ร่วมกันในชุดเลเยอร์ของ AlexNet ที่ใช้โดยพวกเขาและการออกแบบได้เข้าใช้งานทั่วไปตั้งแต่การชนะการแข่งขัน ImageNet ในปี 2012 วิธีการอื่น ๆ ได้รับรางวัลการแข่งขันตามมา