เครือข่ายประสาทมักใช้เวลาสักครู่เพื่อ“ เริ่มเล่น” ระหว่างการฝึกซ้อมหรือไม่?

ฉันพยายามที่จะฝึกอบรมเครือข่ายประสาทลึกเพื่อจัดหมวดหมู่โดยใช้การขยายพันธุ์กลับ โดยเฉพาะฉันใช้เครือข่ายประสาทเทียมสำหรับการจำแนกภาพโดยใช้ห้องสมุด Tensor Flow ในระหว่างการฝึกฉันพบกับพฤติกรรมแปลก ๆ และฉันแค่สงสัยว่ามันเป็นเรื่องปกติหรือว่าฉันอาจจะทำอะไรผิด

ดังนั้นเครือข่ายประสาทเทียมของฉันมี 8 ชั้น (5 convolutional, 3 เชื่อมต่อเต็ม) น้ำหนักและอคติทั้งหมดจะเริ่มต้นด้วยตัวเลขสุ่มขนาดเล็ก จากนั้นฉันตั้งขนาดขั้นตอนและดำเนินการฝึกอบรมด้วยชุดเล็กโดยใช้ Adam Optimizer ของ Tensor Flow

พฤติกรรมแปลก ๆ ที่ฉันกำลังพูดถึงคือประมาณ 10 ลูปแรกจากข้อมูลการฝึกอบรมของฉันการสูญเสียการฝึกอบรมโดยทั่วไปไม่ลดลง น้ำหนักกำลังได้รับการปรับปรุง แต่การสูญเสียการฝึกอบรมอยู่ที่ประมาณค่าเดียวกันบางครั้งจะเพิ่มขึ้นและบางครั้งจะลดลงระหว่างชุดมินิ มันคงอยู่แบบนี้ซักพักแล้วและฉันก็มักจะได้รับความประทับใจว่าการสูญเสียจะไม่ลดลง

ทันใดนั้นการสูญเสียการฝึกอบรมก็ลดลงอย่างรวดเร็ว ตัวอย่างเช่นภายในประมาณ 10 ลูปผ่านข้อมูลการฝึกอบรมความแม่นยำในการฝึกอบรมจะอยู่ที่ประมาณ 20% ถึงประมาณ 80% จากนั้นเป็นต้นมาทุกอย่างก็จบลงอย่างบรรจบกัน สิ่งเดียวกันเกิดขึ้นทุกครั้งที่ฉันเรียกใช้ขั้นตอนการฝึกอบรมตั้งแต่เริ่มต้นและด้านล่างเป็นกราฟที่แสดงตัวอย่างการวิ่งหนึ่งครั้ง

ดังนั้นสิ่งที่ฉันสงสัยคือว่านี่เป็นพฤติกรรมปกติด้วยการฝึกอบรมโครงข่ายประสาทเทียมลึกหรือไม่ หรือเป็นไปได้ว่ามีบางอย่างที่ฉันทำผิดซึ่งทำให้เกิดความล่าช้านี้

ขอบคุณมาก ๆ!

— Karnivaurus
แหล่งที่มา

ฉันเดาว่าฉันมาสายไปงานเลี้ยงเล็กน้อย แต่บางทีฉันยังสามารถเพิ่มมูลค่าให้กับการสนทนา ซู ... สำหรับฉันมันฟังก์ชั่นการเปิดใช้งาน sigmoid เนื่องจากอนุพันธ์ของ sigmoid นั้นมีขนาดเล็กสำหรับค่าที่น้อยมากหรือมีขนาดใหญ่มากการฝึกอบรมอาจช้าสำหรับ "เซลล์ประสาทอิ่มตัว" น่าเสียดายที่ฉันไม่สามารถบอกได้อย่างชัดเจนว่าซีเอ็นเอ็นของคุณเป็นอย่างไรจากคำอธิบายที่คุณได้รับ

— Nima Mousavi

ความจริงที่ว่าอัลกอริทึมใช้เวลาสักครู่ในการ "เตะเข้า" ไม่น่าประหลาดใจเป็นพิเศษ

โดยทั่วไปฟังก์ชั่นเป้าหมายที่จะปรับให้เหมาะสมหลังเครือข่ายนิวรัลนั้นมีหลายโมดอลสูง ดังนั้นหากคุณไม่มีค่าเริ่มต้นที่ชาญฉลาดสำหรับปัญหาของคุณคุณจะไม่มีเหตุผลที่จะเชื่อว่าคุณจะเริ่มต้นการสืบเชื้อสายที่สูงชัน ดังนั้นอัลกอริธึมการเพิ่มประสิทธิภาพของคุณจะสุ่มเดินไปเรื่อย ๆ จนกว่าจะพบหุบเขาที่ค่อนข้างสูงชันเพื่อเริ่มลงมา เมื่อพบสิ่งนี้แล้วคุณควรคาดหวังว่าอัลกอริทึมที่ใช้การไล่ระดับสีส่วนใหญ่จะเริ่มแคบลงในโหมดเฉพาะที่ใกล้เคียงที่สุดทันที

— Cliff AB
แหล่งที่มา