อะไรคือข้อดีของ ReLU เทียบกับ Leaky ReLU และ Parametric ReLU (ถ้ามี)?

ฉันคิดว่าข้อดีของการใช้ Leaky ReLU แทนที่จะเป็น ReLU คือด้วยวิธีนี้เราไม่สามารถไล่ระดับสีได้ Parametric ReLU มีข้อได้เปรียบเดียวกันกับความแตกต่างเพียงอย่างเดียวที่ความชันของเอาต์พุตสำหรับอินพุตเชิงลบเป็นพารามิเตอร์ที่เรียนรู้ได้ใน Leaky ReLU มันเป็นพารามิเตอร์

อย่างไรก็ตามฉันไม่สามารถบอกได้ว่ามีหลายกรณีที่สะดวกกว่าที่จะใช้ ReLU แทน Leaky ReLU หรือ Parametric ReLU

neural-networks activation-function relu

— gvgramazio
แหล่งที่มา

การรวม ReLU, ตัวแปรที่รั่วมากเกินไป¹พารามิเตอร์และตัวแปรที่มีการเปลี่ยนแปลงแบบพลวัตระหว่างการเรียนรู้ทำให้เกิดความสับสนสองสิ่งที่แตกต่าง:

การเปรียบเทียบระหว่าง ReLU กับตัวแปรรั่วมีความสัมพันธ์กันอย่างใกล้ชิดกับความต้องการในกรณี ML เฉพาะที่มือเพื่อหลีกเลี่ยงความอิ่มตัว - ความอิ่มตัวคือคุณสูญเสียสัญญาณไปที่ศูนย์การไล่ระดับสี²หรือการครอบงำของเสียงวุ่นวายที่เกิดจากดิจิตอล การปัดเศษ³ .
การเปรียบเทียบระหว่างการเปิดใช้งานการฝึกอบรมแบบไดนามิก (เรียกว่าตัวแปรในวรรณคดี) และการฝึกอบรมคงเปิดใช้งานจะต้องขึ้นอยู่กับว่าลักษณะที่ไม่ใช่เชิงเส้นหรือไม่ราบรื่นของการเปิดใช้งานได้คุ้มค่าใด ๆ ที่เกี่ยวข้องกับอัตราการลู่4

เหตุผลที่ ReLU ไม่เคยมีพารามิเตอร์คือการทำให้ซ้ำซ้อน ในโดเมนลบมันเป็นศูนย์คงที่ ในโดเมนที่ไม่เป็นลบอนุพันธ์ของมันจะคงที่ เนื่องจากเวกเตอร์อินพุตการเปิดใช้งานได้ถูกลดทอนไปแล้วกับผลิตภัณฑ์เวกเตอร์เมทริกซ์ (ที่เมทริกซ์, คิวบ์หรือไฮเปอร์ - คิวบ์มีพารามิเตอร์การลดทอน) ไม่มีวัตถุประสงค์ที่เป็นประโยชน์ในการเพิ่มพารามิเตอร์เพื่อเปลี่ยนอนุพันธ์คงที่สำหรับโดเมนที่ไม่เป็นลบ .

เมื่อมีความโค้งในการเปิดใช้งานจะไม่เป็นความจริงอีกต่อไปว่าสัมประสิทธิ์การเปิดใช้งานทั้งหมดซ้ำซ้อนเป็นพารามิเตอร์ ค่านิยมของพวกเขาอาจเปลี่ยนแปลงกระบวนการฝึกอบรมและความเร็วและความน่าเชื่อถือของการลู่เข้า

สำหรับเครือข่ายที่ล้ำลึกอย่างมากความซ้ำซ้อนก็เกิดขึ้นอีกครั้งและมีหลักฐานเกี่ยวกับเรื่องนี้ทั้งในทางทฤษฎีและปฏิบัติในวรรณคดี

ในข้อตกลงเกี่ยวกับพีชคณิตความแตกต่างระหว่าง ReLU และการเปิดใช้งานแบบไดนามิกที่ได้มาจากมันเข้าใกล้ศูนย์ในขณะที่ความลึก (ในจำนวนเลเยอร์) เข้าใกล้อนันต์
ในแง่ของคำอธิบาย ReLU สามารถประมาณฟังก์ชั่นได้อย่างแม่นยำด้วยความโค้ง⁵หากมีจำนวนเลเยอร์เพียงพอที่จะทำ

นั่นคือสาเหตุที่ความหลากหลายของ ELU ซึ่งเป็นประโยชน์สำหรับการหลีกเลี่ยงปัญหาความอิ่มตัวที่กล่าวถึงข้างต้นสำหรับเครือข่ายแบบตื้นนั้นไม่ได้ใช้สำหรับปัญหาที่ลึกกว่า

ดังนั้นเราต้องตัดสินใจสองสิ่ง

การเปิดใช้งานพารามิเตอร์นั้นมีประโยชน์หรือไม่นั้นขึ้นอยู่กับการทดลองกับตัวอย่างจำนวนมากจากประชากรทางสถิติ แต่ไม่จำเป็นต้องทำการทดลองเลยหากความลึกของชั้นสูง
ไม่ว่าจะเป็นตัวแปรที่รั่วมีค่าเกี่ยวข้องกับช่วงตัวเลขที่พบในระหว่างการแพร่กระจายด้านหลัง หากการไล่ระดับสีหายไปเล็กน้อยในระหว่างการแพร่กระจายกลับที่จุดใด ๆ ในระหว่างการฝึกส่วนคงที่ของเส้นโค้งการเปิดใช้งานอาจเป็นปัญหา ในกรณีเช่นนี้ฟังก์ชั่นที่ราบรื่นหรือ RelU ที่รั่วซึ่งเป็นความลาดชันที่ไม่เป็นศูนย์สองแห่งอาจช่วยแก้ปัญหาได้อย่างเพียงพอ

โดยสรุปแล้วทางเลือกไม่ใช่ทางเลือกของความสะดวกสบาย

เชิงอรรถ

[1] พารามิเตอร์ไฮเปอร์คือพารามิเตอร์ที่ส่งผลต่อการส่งสัญญาณผ่านเลเยอร์ที่ไม่ได้เป็นส่วนหนึ่งของการลดทอนของอินพุตสำหรับเลเยอร์นั้น น้ำหนักการลดทอนเป็นพารามิเตอร์ พารามิเตอร์อื่น ๆ ที่อยู่ในชุดของพารามิเตอร์ไฮเปอร์ ซึ่งอาจรวมถึงอัตราการเรียนรู้การลดความถี่สูงในการแพร่กระจายด้านหลังและการควบคุมการเรียนรู้อื่น ๆ อีกมากมายที่กำหนดไว้สำหรับชั้นทั้งหมดหากไม่ใช่เครือข่ายทั้งหมด

[2] ถ้าการไล่ระดับสีเป็นศูนย์จะไม่สามารถทำการปรับพารามิเตอร์ได้อย่างชาญฉลาดเพราะไม่ทราบทิศทางของการปรับและขนาดของมันจะต้องเป็นศูนย์ หยุดการเรียนรู้

[3] หากเสียงอึกทึกวุ่นวายซึ่งอาจเกิดขึ้นเมื่อ CPU ปัดค่าเล็กมากไปสู่การเป็นตัวแทนดิจิตอลที่อยู่ใกล้ที่สุดให้ควบคุมสัญญาณการแก้ไขที่ตั้งใจจะถ่ายทอดกลับไปที่เลเยอร์จากนั้นการแก้ไขจะกลายเป็นเรื่องไร้สาระและหยุดเรียนรู้

อัตราการบรรจบกันเป็นการวัดความเร็ว (เทียบกับไมโครวินาทีหรือเทียบกับดัชนีการวนซ้ำของอัลกอริทึม) ซึ่งผลลัพธ์ของการเรียนรู้ (พฤติกรรมของระบบ) เข้าใกล้สิ่งที่ถือว่าดีพอ โดยปกติแล้วจะอยู่ใกล้กับเกณฑ์การยอมรับอย่างเป็นทางการสำหรับการลู่เข้า (การเรียนรู้)

[5] ฟังก์ชั่นที่มีความโค้งคือสิ่งที่ไม่ได้มองเห็นเป็นเส้นตรงหรือแบบแบน พาราโบลามีความโค้ง เส้นตรงไม่ได้ พื้นผิวของไข่มีความโค้ง ระนาบแบนที่สมบูรณ์แบบไม่ได้ ในทางคณิตศาสตร์หากองค์ประกอบใด ๆ ของ Hessian ของฟังก์ชันนั้นไม่ใช่ศูนย์ฟังก์ชันจะมีความโค้ง

— FauChristian
แหล่งที่มา

คุณหมายถึงอะไรโดยการเลือกไม่เคยเป็นทางเลือกที่สะดวกสบาย ?

— gvgramazio

@gvgramazio คุณเขียนว่า "สะดวกกว่าที่จะใช้ ReLU" ในคำถามของคุณ ฉันระบุว่าความสะดวกไม่ได้เป็นพื้นฐานในการเลือก บางทีมันอาจจะรุนแรงเกินไป ฉันไม่ได้ตั้งใจจะเป็น ประโยคข้างบนประโยคนั้นในคำตอบของฉันมีวัตถุประสงค์เพื่อให้เกณฑ์ที่มีประโยชน์มากขึ้นซึ่งคุณอาจยึดการตัดสินใจของคุณเมื่อเลือกฟังก์ชั่นการเปิดใช้งาน

— FauChristian

ไม่ต้องกังวลกับความเมตตาเกินไปไม่เป็นปัญหาสำหรับฉัน ฉันคิดว่านั่นเป็นปัญหาทางภาษามากกว่า (ฉันไม่ใช่เจ้าของภาษา)

— gvgramazio

ความจริงก็คือจากสิ่งที่ฉันเข้าใจคุณอธิบายได้ดีซึ่งในกรณีนี้ฉันควรเลือกตัวแปรหนึ่งที่เกี่ยวกับตัวแปรอื่น สิ่งที่ฉันยังไม่เข้าใจคือเมื่อฉันควรจะชอบคลาสสิก เช่นตัวแปรที่รั่วอาจให้ทางแก้ไขที่เพียงพอสำหรับการไล่ระดับสี แต่ถ้ามันไม่มีข้อเสียเปรียบฉันสามารถเลือกตัวแปรที่รั่วออกมาด้วยความเคารพต่อ ReLU

— gvgramazio

@FauChristian คุณสามารถโปรดเพิ่มคำภาษาอื่น ๆ อีกมากมายและสัญชาติญาณผมไม่ได้เพื่อให้คุ้นเคยกับภาษาทางคณิตศาสตร์ :)

— DuttaA