จะเกิดอะไรขึ้นเมื่อฉันผสมฟังก์ชั่นการเปิดใช้งาน


10

มีฟังก์ชั่นการเปิดใช้งานหลายอย่างเช่น ReLU, sigmoid หรือ tanh. จะเกิดอะไรขึ้นเมื่อฉันผสมฟังก์ชั่นการเปิดใช้งาน

ฉันเพิ่งพบว่า Google ได้พัฒนาฟังก์ชั่นเปิดใช้งาน Swish ซึ่งเป็น (x * sigmoid) โดยการเปลี่ยนฟังก์ชั่นการเปิดใช้งานมันสามารถเพิ่มความแม่นยำให้กับปัญหาเครือข่ายประสาทขนาดเล็กเช่นปัญหา XOR ได้หรือไม่?

คำตอบ:


2

คำตอบทั่วไปเกี่ยวกับพฤติกรรมของการรวมฟังก์ชั่นการเปิดใช้งานทั่วไปคือต้องใช้กฎของแคลคูลัสโดยเฉพาะแคลคูลัสที่แตกต่างกันโดยเฉพาะผลที่ได้จะต้องได้รับจากการทดลองเพื่อให้แน่ใจว่ามีคุณสมบัติของฟังก์ชันที่ประกอบกัน เพิ่มเวลาในการคำนวณ ข้อยกเว้นสำหรับการเพิ่มขึ้นดังกล่าวจะเกิดขึ้นเมื่อภาระการคำนวณของชุดค่าผสมมีขนาดเล็กเมื่อเทียบกับข้อดีของการลู่เข้าที่ชุดค่าผสมจะให้

สิ่งนี้ดูเหมือนจะเป็นจริงของ Swish ชื่อที่กำหนดให้กับฟังก์ชันการเปิดใช้งานที่กำหนดเป็น

(x)=xS(βx),

ที่ไหน () คือฟังก์ชั่นเปิดใช้งาน Swish และ Sเป็นฟังก์ชั่น sigmoid โปรดทราบว่า Swish ไม่ได้เป็นการผสมผสานระหว่างฟังก์ชันการเปิดใช้งานอย่างเคร่งครัด มันถูกสร้างขึ้นโดยการเพิ่มพารามิเตอร์ไฮเปอร์β ภายในฟังก์ชั่น sigmoid และการคูณของอินพุตกับผลลัพธ์ของฟังก์ชัน sigmoid

ดูเหมือนจะไม่ได้รับการพัฒนาโดย Google กระดาษที่ส่งโดยไม่ระบุชื่อเดิม (สำหรับการตรวจสอบคนตาบอดสองเท่าในกระดาษ ICLR 2018), ค้นหาฟังก์ชั่นการเปิดใช้งานถูกประพันธ์โดย Prajit Ramachandran, Barret Zoph และ Quoc V. Le ประมาณปี 2017 นี่คือการเรียกร้องของพวกเขา

การทดลองของเราแสดงให้เห็นว่าฟังก์ชั่นการเปิดใช้งานที่ค้นพบที่ดีที่สุด, ... หวด, ... มีแนวโน้มที่จะทำงานได้ดีกว่า ReLU ในแบบจำลองที่ลึกกว่าในชุดข้อมูลที่ท้าทายจำนวนหนึ่ง

การเปิดใช้งานฟังก์ชั่นการเปิดใช้งานกับเลเยอร์ใด ๆ จะยกเว้นในกรณีที่หายากทางดาราศาสตร์ความแม่นยำในการกระแทกความน่าเชื่อถือและประสิทธิภาพในการคำนวณ การเปลี่ยนแปลงที่สำคัญนั้นไม่สามารถสรุปได้หรือไม่ นั่นเป็นเหตุผลที่ความคิดใหม่ ๆ จะมีการทดสอบกับชุดข้อมูลแบบดั้งเดิมที่ใช้ในการวัดประโยชน์1

การรวมฟังก์ชั่นการเปิดใช้งานเข้ากับฟังก์ชั่นการเปิดใช้งานใหม่นั้นไม่ใช่เรื่องปกติ ตัวอย่างเช่น AlexNet ไม่ได้รวมเข้าด้วยกัน 2 . อย่างไรก็ตามเป็นเรื่องธรรมดามากที่จะใช้ฟังก์ชั่นเปิดใช้งานที่แตกต่างกันในเลเยอร์ต่างๆของการออกแบบเครือข่ายที่มีประสิทธิภาพ


เชิงอรรถ

[1] ประเพณีเหล่านี้สร้างอคติหรือไม่เป็นคำถามอื่น ผู้ที่ปฏิบัติตามทฤษฎีการวิเคราะห์กรณีการใช้งานเป็นผู้บุกเบิกโดยนักวิทยาศาสตร์คอมพิวเตอร์ชาวสวีเดน Ivar Hjalmar Jacobson หรือ 6 แนวคิดของ Sigma จะกล่าวว่าการทดสอบเหล่านี้เป็นการทดสอบหน่วยไม่ใช่การทดสอบการใช้งานกับกรณีการใช้งานจริงของโลก

[2] เพื่อแก้ไขความเข้าใจที่คลาดเคลื่อนที่อาจเกิดขึ้นจากคำตอบอื่น AlexNet ชื่อที่ให้ไว้กับแนวทางการจำแนกประเภท ImageNet ด้วย Deep Convolutional Neural Networks (2012) โดย Alex Krizhevsky, Ilya Sutskever และ Geoffrey E. Hinton จากมหาวิทยาลัย โตรอนโตไม่เกี่ยวข้องกับการรวมฟังก์ชั่นการเปิดใช้งานเพื่อสร้างใหม่ พวกเขาเขียนสิ่งนี้

เอาต์พุตของเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ล่าสุดจะถูกป้อนไปยัง softmax 1000-way ซึ่งจะสร้างการกระจายผ่านฉลากคลาส 1000

...

ReLU ไม่ใช่เชิงเส้นถูกนำไปใช้กับการส่งออกของทุกชั้น convolutional และเชื่อมต่ออย่างเต็มที่ ชั้นภายในเป็น ReLU บริสุทธิ์และชั้นผลลัพธ์คือ Softmax

นอกจากนี้ยังมีเคอร์เนลและเลเยอร์ร่วมกันในชุดเลเยอร์ของ AlexNet ที่ใช้โดยพวกเขาและการออกแบบได้เข้าใช้งานทั่วไปตั้งแต่การชนะการแข่งขัน ImageNet ในปี 2012 วิธีการอื่น ๆ ได้รับรางวัลการแข่งขันตามมา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.