ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก?


15

ฉันกำลังเตรียมสอบเครือข่ายประสาท ในหลายโปรโตคอลจากการสอบเดิมฉันได้อ่านว่าฟังก์ชั่นการเปิดใช้งานของเซลล์ประสาท

ฉันเข้าใจว่าฟังก์ชั่นการเปิดใช้งานควรมีความแตกต่างได้มีอนุพันธ์ซึ่งไม่ได้เป็น 0 ในจุดส่วนใหญ่และไม่ใช่เชิงเส้น ฉันไม่เข้าใจว่าทำไมการเป็นโมโนโทนิกจึงมีความสำคัญ / เป็นประโยชน์

ฉันรู้ว่าฟังก์ชั่นการเปิดใช้งานต่อไปนี้และพวกเขาเป็นแบบโมโนโทนิค:

  • Relu
  • sigmoid
  • Tanh
  • Softmax: ฉันไม่แน่ใจว่านิยาม monotonicity สามารถใช้ได้กับฟังก์ชั่นด้วย:RnRม.n,ม.>1
  • Softplus
  • (ประจำตัว)

แต่ผมยังไม่เห็นเหตุผลว่าทำไมเช่น 2φ(x)=x2

ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก?

(คำถามด้านที่เกี่ยวข้อง: มีเหตุผลใดที่ฟังก์ชันลอการิทึม / เลขชี้กำลังไม่ได้ใช้เป็นฟังก์ชันเปิดใช้งานหรือไม่)



1
@MartinThoma คุณแน่ใจหรือไม่ว่า softmax เป็นแบบโมโนโทนิค?
สื่อ

1
ขอบคุณ @Media เพื่อที่จะตอบคำถามของคุณ: ผมไม่แน่ใจว่าสิ่งที่ "ต่อเนื่อง" แม้กระทั่งวิธีการสำหรับฟังก์ชั่นในกับ1 สำหรับ softmax นั้นมีค่าคงที่ แต่ถ้าไม่มีการนิยามสำหรับองค์ประกอบในด้วยฉันไม่คิดว่าระบบโมโนโทนิกจะสมเหตุสมผล :RnRม.ม.>1ม.=1<Rnn>1
Martin Thoma

1
@ MartinThoma ขอบคุณจริง ๆ แล้วมันก็เป็นคำถามของฉัน ฉันไม่รู้และยังไม่รู้ถ้ามีส่วนขยายสำหรับโมโนโทนในฟังก์ชั่นที่มีเอาต์พุตหลายตัว คุณรู้อะไรทางคณิตศาสตร์!
สื่อ

คำตอบ:


13

เกณฑ์ความน่าเบื่อหน่ายช่วยให้เครือข่ายประสาทเทียมสามารถรวมกันเป็นลักษณนามที่แม่นยำยิ่งขึ้น ดูสแต็กการแลกเปลี่ยนคำตอบและบทความวิกิพีเดียสำหรับรายละเอียดและเหตุผลเพิ่มเติม

อย่างไรก็ตามเกณฑ์ monotonicity ไม่จำเป็นสำหรับฟังก์ชั่นการเปิดใช้งาน - นอกจากนี้ยังเป็นไปได้ในการฝึกอบรมอวนประสาทด้วยฟังก์ชั่นการเปิดใช้งานที่ไม่ใช่แบบโมโนโทนิก มันยากที่จะเพิ่มประสิทธิภาพเครือข่ายประสาท ดูคำตอบของโยชัวเบนจิโอ


-1

ฉันจะให้เหตุผลทางคณิตศาสตร์มากขึ้นว่าทำไมการมีฟังก์ชั่นโมโนโทนช่วย!

ใช้http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-funสมมติว่าฟังก์ชั่นการเปิดใช้งานของเราเป็นเสียงเดียวเราสามารถพูดได้ว่าในบรรทัดจริงฟังก์ชั่นของเราจะเป็น อนุพันธ์ ดังนั้นการไล่ระดับสีของฟังก์ชั่นการเปิดใช้งานจะไม่เป็นฟังก์ชั่นที่ผิดปกติ มันจะง่ายกว่าที่จะหา minima ที่เรากำลังมองหา (ราคาไม่แพงคำนวณ)

ฟังก์ชันเลขชี้กำลังและลอการิทึมเป็นฟังก์ชันที่สวยงาม แต่ไม่ จำกัด ขอบเขต (ดังนั้นการสนทนาของทฤษฎีบท Lebesgue ไม่เป็นความจริงเนื่องจาก Exp และ Log เป็นฟังก์ชันที่แตกต่างกันซึ่งไม่ได้อยู่บนเส้นจริง) ดังนั้นพวกเขาจึงล้มเหลวเมื่อเราต้องการจำแนกตัวอย่างของเราในขั้นตอนสุดท้าย Sigmoid และ tanh ทำงานได้ดีมากเพราะมีการไล่ระดับสีซึ่งง่ายต่อการคำนวณและช่วงคือ (0,1) และ (-1,1) ตามลำดับ


2
มีฟังก์ชั่นที่แตกต่างกันมากมาย แต่ไม่ใช่ฟังก์ชั่นเสียงเดียว เหตุใดการมีฟังก์ชั่นเสียงเดียวจึงช่วยได้
Martin Thoma
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.