การรวม ReLU, ตัวแปรที่รั่วมากเกินไป1พารามิเตอร์และตัวแปรที่มีการเปลี่ยนแปลงแบบพลวัตระหว่างการเรียนรู้ทำให้เกิดความสับสนสองสิ่งที่แตกต่าง:
- การเปรียบเทียบระหว่าง ReLU กับตัวแปรรั่วมีความสัมพันธ์กันอย่างใกล้ชิดกับความต้องการในกรณี ML เฉพาะที่มือเพื่อหลีกเลี่ยงความอิ่มตัว - ความอิ่มตัวคือคุณสูญเสียสัญญาณไปที่ศูนย์การไล่ระดับสี2หรือการครอบงำของเสียงวุ่นวายที่เกิดจากดิจิตอล การปัดเศษ3 .
- การเปรียบเทียบระหว่างการเปิดใช้งานการฝึกอบรมแบบไดนามิก (เรียกว่าตัวแปรในวรรณคดี) และการฝึกอบรมคงเปิดใช้งานจะต้องขึ้นอยู่กับว่าลักษณะที่ไม่ใช่เชิงเส้นหรือไม่ราบรื่นของการเปิดใช้งานได้คุ้มค่าใด ๆ ที่เกี่ยวข้องกับอัตราการลู่4
เหตุผลที่ ReLU ไม่เคยมีพารามิเตอร์คือการทำให้ซ้ำซ้อน ในโดเมนลบมันเป็นศูนย์คงที่ ในโดเมนที่ไม่เป็นลบอนุพันธ์ของมันจะคงที่ เนื่องจากเวกเตอร์อินพุตการเปิดใช้งานได้ถูกลดทอนไปแล้วกับผลิตภัณฑ์เวกเตอร์เมทริกซ์ (ที่เมทริกซ์, คิวบ์หรือไฮเปอร์ - คิวบ์มีพารามิเตอร์การลดทอน) ไม่มีวัตถุประสงค์ที่เป็นประโยชน์ในการเพิ่มพารามิเตอร์เพื่อเปลี่ยนอนุพันธ์คงที่สำหรับโดเมนที่ไม่เป็นลบ .
เมื่อมีความโค้งในการเปิดใช้งานจะไม่เป็นความจริงอีกต่อไปว่าสัมประสิทธิ์การเปิดใช้งานทั้งหมดซ้ำซ้อนเป็นพารามิเตอร์ ค่านิยมของพวกเขาอาจเปลี่ยนแปลงกระบวนการฝึกอบรมและความเร็วและความน่าเชื่อถือของการลู่เข้า
สำหรับเครือข่ายที่ล้ำลึกอย่างมากความซ้ำซ้อนก็เกิดขึ้นอีกครั้งและมีหลักฐานเกี่ยวกับเรื่องนี้ทั้งในทางทฤษฎีและปฏิบัติในวรรณคดี
- ในข้อตกลงเกี่ยวกับพีชคณิตความแตกต่างระหว่าง ReLU และการเปิดใช้งานแบบไดนามิกที่ได้มาจากมันเข้าใกล้ศูนย์ในขณะที่ความลึก (ในจำนวนเลเยอร์) เข้าใกล้อนันต์
- ในแง่ของคำอธิบาย ReLU สามารถประมาณฟังก์ชั่นได้อย่างแม่นยำด้วยความโค้ง5หากมีจำนวนเลเยอร์เพียงพอที่จะทำ
นั่นคือสาเหตุที่ความหลากหลายของ ELU ซึ่งเป็นประโยชน์สำหรับการหลีกเลี่ยงปัญหาความอิ่มตัวที่กล่าวถึงข้างต้นสำหรับเครือข่ายแบบตื้นนั้นไม่ได้ใช้สำหรับปัญหาที่ลึกกว่า
ดังนั้นเราต้องตัดสินใจสองสิ่ง
- การเปิดใช้งานพารามิเตอร์นั้นมีประโยชน์หรือไม่นั้นขึ้นอยู่กับการทดลองกับตัวอย่างจำนวนมากจากประชากรทางสถิติ แต่ไม่จำเป็นต้องทำการทดลองเลยหากความลึกของชั้นสูง
- ไม่ว่าจะเป็นตัวแปรที่รั่วมีค่าเกี่ยวข้องกับช่วงตัวเลขที่พบในระหว่างการแพร่กระจายด้านหลัง หากการไล่ระดับสีหายไปเล็กน้อยในระหว่างการแพร่กระจายกลับที่จุดใด ๆ ในระหว่างการฝึกส่วนคงที่ของเส้นโค้งการเปิดใช้งานอาจเป็นปัญหา ในกรณีเช่นนี้ฟังก์ชั่นที่ราบรื่นหรือ RelU ที่รั่วซึ่งเป็นความลาดชันที่ไม่เป็นศูนย์สองแห่งอาจช่วยแก้ปัญหาได้อย่างเพียงพอ
โดยสรุปแล้วทางเลือกไม่ใช่ทางเลือกของความสะดวกสบาย
เชิงอรรถ
[1] พารามิเตอร์ไฮเปอร์คือพารามิเตอร์ที่ส่งผลต่อการส่งสัญญาณผ่านเลเยอร์ที่ไม่ได้เป็นส่วนหนึ่งของการลดทอนของอินพุตสำหรับเลเยอร์นั้น น้ำหนักการลดทอนเป็นพารามิเตอร์ พารามิเตอร์อื่น ๆ ที่อยู่ในชุดของพารามิเตอร์ไฮเปอร์ ซึ่งอาจรวมถึงอัตราการเรียนรู้การลดความถี่สูงในการแพร่กระจายด้านหลังและการควบคุมการเรียนรู้อื่น ๆ อีกมากมายที่กำหนดไว้สำหรับชั้นทั้งหมดหากไม่ใช่เครือข่ายทั้งหมด
[2] ถ้าการไล่ระดับสีเป็นศูนย์จะไม่สามารถทำการปรับพารามิเตอร์ได้อย่างชาญฉลาดเพราะไม่ทราบทิศทางของการปรับและขนาดของมันจะต้องเป็นศูนย์ หยุดการเรียนรู้
[3] หากเสียงอึกทึกวุ่นวายซึ่งอาจเกิดขึ้นเมื่อ CPU ปัดค่าเล็กมากไปสู่การเป็นตัวแทนดิจิตอลที่อยู่ใกล้ที่สุดให้ควบคุมสัญญาณการแก้ไขที่ตั้งใจจะถ่ายทอดกลับไปที่เลเยอร์จากนั้นการแก้ไขจะกลายเป็นเรื่องไร้สาระและหยุดเรียนรู้
อัตราการบรรจบกันเป็นการวัดความเร็ว (เทียบกับไมโครวินาทีหรือเทียบกับดัชนีการวนซ้ำของอัลกอริทึม) ซึ่งผลลัพธ์ของการเรียนรู้ (พฤติกรรมของระบบ) เข้าใกล้สิ่งที่ถือว่าดีพอ โดยปกติแล้วจะอยู่ใกล้กับเกณฑ์การยอมรับอย่างเป็นทางการสำหรับการลู่เข้า (การเรียนรู้)
[5] ฟังก์ชั่นที่มีความโค้งคือสิ่งที่ไม่ได้มองเห็นเป็นเส้นตรงหรือแบบแบน พาราโบลามีความโค้ง เส้นตรงไม่ได้ พื้นผิวของไข่มีความโค้ง ระนาบแบนที่สมบูรณ์แบบไม่ได้ ในทางคณิตศาสตร์หากองค์ประกอบใด ๆ ของ Hessian ของฟังก์ชันนั้นไม่ใช่ศูนย์ฟังก์ชันจะมีความโค้ง