ในบริบทของโครงข่ายประสาทเทียมอะไรคือความแตกต่างระหว่างอัตราการเรียนรู้และการลดน้ำหนัก?
ในบริบทของโครงข่ายประสาทเทียมอะไรคือความแตกต่างระหว่างอัตราการเรียนรู้และการลดน้ำหนัก?
คำตอบ:
อัตราการเรียนรู้เป็นพารามิเตอร์ที่กำหนดว่าขั้นตอนการอัปเดตมีผลต่อค่าปัจจุบันของตุ้มน้ำหนักเท่าใด ในขณะที่การลดน้ำหนักเป็นคำเพิ่มเติมในกฎการอัปเดตน้ำหนักที่ทำให้น้ำหนักลดลงเป็นศูนย์ชี้แจงหากไม่มีการกำหนดเวลาการปรับปรุงอื่น ๆ
สมมุติว่าเรามีฟังก์ชั่นค่าใช้จ่ายหรือข้อผิดพลาดที่เราต้องการลดให้น้อยที่สุด โคตรลาดชันบอกให้เราแก้ไขน้ำหนักในทิศทางของโคตรลาดชันใน : ที่เป็นอัตราการเรียนรู้และถ้ามันมีขนาดใหญ่คุณจะมีการปรับเปลี่ยนขนาดใหญ่ตามลําดับของน้ำหนัก (โดยทั่วไปก็ไม่ควรจะมีขนาดใหญ่เกินไปมิฉะนั้นคุณจะแหกขั้นต่ำในท้องถิ่นในการทำงานของค่าใช้จ่ายของคุณ)
เพื่อ จำกัด จำนวนพารามิเตอร์ฟรีในโมเดลของคุณอย่างมีประสิทธิภาพเพื่อหลีกเลี่ยงการปรับตัวมากเกินไปคุณสามารถกำหนดฟังก์ชั่นค่าใช้จ่ายเป็นประจำได้ วิธีง่ายๆในการทำเช่นนั้นคือการแนะนำค่าเฉลี่ยแบบเกาส์เป็นศูนย์ก่อนน้ำหนักซึ่งเทียบเท่ากับการเปลี่ยนฟังก์ชันต้นทุนเป็น2} ในทางปฏิบัติสิ่งนี้จะลงโทษน้ำหนักที่มากและ จำกัด เสรีภาพในโมเดลของคุณได้อย่างมีประสิทธิภาพ พารามิเตอร์การทำให้เป็นมาตรฐานตัวกำหนดวิธีที่คุณแลกเปลี่ยนราคาเดิมกับการลงโทษน้ำหนักจำนวนมาก
ใช้การไล่ระดับสีแบบลาดชันกับฟังก์ชันต้นทุนใหม่นี้ที่เราได้รับ: คำใหม่มาจากการทำให้เป็นปกติจะทำให้น้ำหนักสลายตามสัดส่วนกับขนาดของมัน
นอกจากคำตอบของ @ mrig (+1) สำหรับแอปพลิเคชันเครือข่ายประสาทจำนวนมากการใช้อัลกอริธึมการเพิ่มประสิทธิภาพขั้นสูงนั้นดีกว่าเช่น Levenberg-Marquardt (เครือข่ายขนาดกลางขนาดเล็ก) หรือสัดส่วนการไล่ระดับคอนจูเกตคอนจูเกต เครือข่าย) เนื่องจากสิ่งเหล่านี้จะเร็วกว่ามากและไม่จำเป็นต้องตั้งค่าอัตราการเรียนรู้ (อัลกอริทึมทั้งสองปรับอัตราการเรียนรู้โดยใช้ความโค้งเช่นเดียวกับการไล่ระดับสี) แพคเกจเครือข่ายหรือไลบรารีโครงข่ายประสาทที่เหมาะสมใด ๆ จะมีการใช้งานหนึ่งในวิธีการเหล่านี้แพ็คเกจใด ๆ ที่ไม่น่าจะล้าสมัย ฉันใช้ NETLAB libary สำหรับ MATLAB ซึ่งเป็นชุดที่ยอดเยี่ยม
ฉันพูดง่ายๆ:
learning_rate:มันควบคุมความเร็วของแบบจำลองโครงข่ายประสาทเทียมที่เรียนรู้ปัญหาอย่างรวดเร็วหรือช้า
อ้างอิง: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay:มันเป็นเทคนิคการทำให้เป็นมาตรฐานที่ใช้เพื่อหลีกเลี่ยงการปรับตัวมากเกินไป
อ้างอิง: https://metacademy.org/graphs/concepts/weight_decay_neural_networks