การเป็นเร็วขึ้นหรือต่ำลงเป็นคำที่เกี่ยวข้องและจะต้องเข้าใจในบริบทของสิ่งที่มันเปรียบเทียบ ดังนั้นเพื่อที่จะเข้าใจสิ่งนี้เราต้องพิจารณาก่อนว่าการไล่ระดับสีแบบเกลาทำงานกับฟังก์ชันการเปิดใช้งานประเภทอื่นได้อย่างไร
ตัวอย่างการตั้งค่า
พิจารณา MLP ด้วย n เลเยอร์ที่ซ่อนของขนาดหนึ่ง
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
ที่ไหน f เป็นฟังก์ชั่นการเปิดใช้งาน
Tanh และ Sigmoid - หายไปไล่ระดับสี
สมมติ fคือฟังก์ชันการเปิดใช้งาน Tanh หรือ Sigmoid อนุพันธ์ของฟังก์ชันเหล่านั้นถูกล้อมรอบระหว่าง -1 ถึง 1 หรือเป็นทางการf′(x)∈(−1,1) สำหรับใด ๆ x.
สิ่งนี้ทำให้เกิดปัญหาที่สำคัญมากในการเรียนรู้อย่างลึกซึ้งที่เรียกว่า "ปัญหาการไล่สีจาง" ลองพิจารณาที่มาของy WRT W1. ตามกฎลูกโซ่เรามี
dfdW1=dfdWndWndWn−1...dW2dW1
และสำหรับใด ๆ 0<i<nสังเกตว่า
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(คำแรกอยู่ระหว่าง (−1,1) เพราะ f′ ถูกผูกไว้ตามที่กล่าวไว้ก่อนหน้าและ ai−2 ยังอยู่ระหว่าง (−1,1) สควอชเป็นค่าอินพุต)
ดังนั้น dfdW1นั้นเป็นผลคูณของจำนวนเทอมแต่ละอันอยู่ระหว่าง (0, 1) ยิ่งใหญ่n (เครือข่ายที่ลึกขึ้น) เป็นคำที่เราต้องการคูณและเป็นผลมาจาก dfdW1จะเล็กลงอย่างชี้แจง เพราะความสัมพันธ์ชี้แจงนี้การไล่ระดับสีอย่างรวดเร็วกลายเป็นขนาดเล็กเพื่อให้เราได้อย่างมีประสิทธิภาพสามารถพิจารณาเป็นศูนย์ ผลที่ตามมาของการไม่มีการไล่ระดับสีเป็นศูนย์นั้นไม่มีการเรียนรู้ใด ๆ เกิดขึ้นเพราะกฎการอัปเดตของเราสำหรับการไล่ระดับสีขึ้นอยู่กับการไล่ระดับสีนั้น
RELU และ Dead Neuron
Relu ถูกประดิษฐ์ขึ้นเพื่อจัดการกับปัญหาการไล่ระดับสีที่หายไปเพราะอนุพันธ์ของมันมักจะเป็น 1 เสมอ ai>0 ดังนั้นเมื่อ f RELU คือเรา:
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
ทุกอย่างดีและดีเมื่อ x>0 แต่ทุกสิ่งจะกระจุย x<0ครั้งนี้ไม่เพียง แต่การไล่ระดับสีใกล้กับศูนย์มากเท่านั้น แต่ยังเป็นศูนย์ที่บริสุทธิ์ เมื่อเซลล์ประสาทมาถึงที่นั่นแล้วก็ไม่มีโอกาสที่จะกลับมาเลย นั่นเป็นสาเหตุที่สิ่งนี้เรียกว่าปัญหา "Dead Neuron"
รั่ว RELU และ ELU
Leaky RELU และ ELU คือการพัฒนาตามธรรมชาติหลังจาก RELU พวกเขามีความคล้ายคลึงกับ RELU เช่นอนุพันธ์เท่ากับ 1 เมื่อx>0 แต่หลีกเลี่ยง "เซลล์ประสาทที่ตายแล้ว" โดยหลีกเลี่ยงศูนย์อนุพันธ์เมื่อใด x<1.
ฉันเสนอราคากระดาษต้นฉบับสำหรับความแตกต่างระหว่างทั้งสอง
ในขณะที่ LReLUs และ PReLUs มีค่าเป็นลบเช่นกันพวกเขาไม่มั่นใจว่าสถานะการปิดการทำงานของสัญญาณรบกวนที่แข็งแกร่ง ELU อิ่มตัวถึงค่าลบด้วยอินพุตที่เล็กลงและจึงลดความแปรปรวนและข้อมูลที่แพร่กระจายไปข้างหน้า
คำอธิบายที่ใช้งานง่ายมีลักษณะดังต่อไปนี้ ใน ELU เมื่อใดก็ตามที่ x เล็กพอไล่ระดับก็เล็กมากและอิ่มตัว (เช่นเดียวกับ Tanh และ Sigmoid) การไล่ระดับสีขนาดเล็กหมายความว่าอัลกอริทึมการเรียนรู้สามารถมุ่งเน้นไปที่การปรับแต่งน้ำหนักอื่น ๆ โดยไม่ต้องกังวลเกี่ยวกับการโต้ตอบกับเซลล์ประสาทที่อิ่มตัว
พิจารณาพหุนามของระดับ 2 ซึ่งสามารถแสดงเป็นพื้นผิวเรียบในพื้นที่ 3 มิติ ในการค้นหาค่าต่ำสุดในพื้นที่นั้นขั้นตอนวิธีการลดความลาดชันจะต้องพิจารณาความชันทั้งในทิศทาง x และ y หากการไล่ระดับสีเป็นลบทั้งในทิศทาง x และทิศทาง y ก็ไม่ชัดเจนว่าทางไหนดีกว่า ดังนั้นจึงมีเหตุผลที่จะเลือกเส้นทางในระหว่าง แต่ถ้าเรารู้ทุกอย่างแล้วว่าแบน (ศูนย์การไล่ระดับสี) ในทิศทาง x แล้วมันจะกลายเป็นเรื่องไร้สมองที่จะไปในทิศทาง y หรือในคำอื่น ๆ คุณค้นหาพื้นที่เล็กลงมาก
หมายเหตุพิเศษ
ในการเรียนรู้ลึกมีการเรียกร้องมากมายโดยไม่มีหลักฐานเชิงประจักษ์เพียงพอหรือความเข้าใจในเชิงลึกเพื่อสนับสนุน ในกรณีของ ELU ในขณะที่มันอาจเป็นจริงที่มันส่งผลให้เกิดการรวมกันของชุดข้อมูลบางอย่างเร็วขึ้น แต่ก็อาจเป็นความจริงที่ทำให้อัลกอริทึมการเรียนรู้ติดอยู่ที่ค่าสูงสุดในท้องถิ่นสำหรับชุดข้อมูลอื่น เรายังไม่รู้มากพอ