อะไรทำให้หยดอย่างกะทันหันในข้อผิดพลาดการฝึกอบรม / ทดสอบเมื่อฝึกเครือข่ายประสาท


18

ฉันเคยเห็นข้อผิดพลาดของการทดสอบ / การฝึกอบรมเกิดขึ้นในบางครั้งในระหว่างการฝึกอบรมโครงข่ายประสาทเทียมและฉันสงสัยว่าอะไรเป็นสาเหตุของการกระโดดเหล่านี้:

ข้อผิดพลาดการทดสอบ ResNet

ภาพนี้นำมาจาก Kaiming เขา Github แต่แปลงที่คล้ายกันปรากฏขึ้นในเอกสารจำนวนมาก


บทความที่เกี่ยวข้องหนึ่งฉบับ: Smith et al. 2018 อย่าลดอัตราการเรียนรู้เพิ่มขนาดของชุดงานopenreview.net/forum?id=B1Yy1BxCZ
อะมีบา

คำตอบ:


7

พวกเขาเปลี่ยนอัตราการเรียนรู้ โปรดทราบว่าการหยดนั้นอยู่ที่ 30 และ 60 ยุคอย่างแน่นอนโดยบางคนตั้งค่าด้วยตนเอง


ในส่วนที่ 3.4 จะอธิบายว่าอัตราการเรียนรู้จะถูกหารด้วย 10 เมื่อข้อผิดพลาดเกิดขึ้น
Xiawi

2

คิดว่า "แนวการเพิ่มประสิทธิภาพ" ตัวอย่างเช่นหากคุณมีเครือข่ายที่มีน้ำหนักเพียงสองน้ำหนักเท่านั้นคุณสามารถวางแผนการรวมกันของน้ำหนักทั้งสองนี้บนพื้นผิวโดยที่ความสูงในแต่ละจุดแสดงจำนวนข้อผิดพลาดฟังก์ชันต้นทุนของคุณจะส่งคืนถ้าคุณใช้ (x, y ) ประสานงานเป็นสองน้ำหนักของคุณ คุณกำลังพยายามย้ายไปยังจุดต่ำสุดบนพื้นผิวนี้เพื่อรับข้อผิดพลาดระดับต่ำสุด
บางครั้งปัญหาก็คือพื้นผิวอาจบ้าไปแล้วโดยเฉพาะในเครือข่ายที่มีพารามิเตอร์หลายล้านตัวแทนที่จะเป็นแค่สองตัว คุณสามารถติดอยู่ในจุดอานที่ความคืบหน้าจะชะลอตัวลงและจากนั้นก็ถูกยิงสลิงกลับเข้าไปในเนินเขาลง
นี่คือภาพเคลื่อนไหวเพื่อช่วยให้เห็นภาพนี้ ในขณะที่คุณสามารถเห็นอัลกอริธึมการไล่ระดับสีขั้นพื้นฐานเพิ่มเติมติดอยู่ในตำแหน่งเหล่านี้ได้ง่ายขึ้นมาก
ป้อนคำอธิบายรูปภาพที่นี่

อาจมีสาเหตุอื่นสำหรับสิ่งนี้เช่นกัน แต่นี่เป็นสาเหตุที่คุณได้ยินบ่อยที่สุด อาจเป็นไปได้ว่าเครือข่ายอาจมีจำนวนหน่วยที่ได้รับการเปิดใช้งานแบบอิ่มตัว (หรือในกรณีของ relu หน่วยที่เปิดใช้งานโดยอินพุตการฝึกอบรมจำนวนน้อยมากเท่านั้น) และเมื่อหน่วยหนึ่งออกจากความอิ่มตัว กำหนดปฏิกิริยาลูกโซ่ที่เคลื่อนย้ายส่วนที่เหลือออกจากความอิ่มตัวและน้ำหนักก็เพิ่มการไหลของการไล่ระดับสี ฉันไม่ได้มองอะไรแบบนั้น แต่ฉันสนใจถ้าใครมีเหตุผลอื่น ๆ ที่จะเพิ่ม


1
-1 สิ่งนี้ไม่ตอบคำถามหรืออย่างน้อยก็ไม่ชัดเจนว่าเป็นอย่างไรและทำไมสิ่งที่คุณเขียนจึงเกี่ยวข้อง ทำไมการลดอัตราการเรียนรู้จึงทำให้ได้หนึ่งจุดอาน
อะมีบา

มันยังไม่ชัดเจนว่าแอนิเมชันนั้นถูกต้องแล้วตั้งแต่ SGD - ตามคำนิยาม - เห็นพื้นผิวการเพิ่มประสิทธิภาพที่แตกต่างกันสำหรับการทำซ้ำทุกครั้ง ในภาพนี้พื้นผิวการปรับให้เหมาะสมได้รับการแก้ไขดังนั้นจึงไม่ชัดเจนสำหรับฉันที่จะแสดงภาพ SGD ที่นี่ "จุด" ของ SGD ทำหน้าที่คล้ายกับการไล่ระดับสีแบบเต็มชุดซึ่งพื้นผิวการปรับปรุงนั้นได้รับการแก้ไขตลอดกระบวนการฝึกอบรมทั้งหมด
Josh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.