ตอนนี้ฉันรู้สึกสับสนนิดหน่อยจากการที่การไล่ระดับสีมินิแบทช์สามารถติดอยู่ในจุดอานม้าได้
วิธีแก้ปัญหาอาจเล็กน้อยเกินไปที่ฉันไม่เข้าใจ
คุณได้รับตัวอย่างใหม่ทุกยุคและคำนวณข้อผิดพลาดใหม่ตามแบทช์ใหม่ดังนั้นฟังก์ชั่นค่าใช้จ่ายจะคงที่เฉพาะสำหรับแต่ละชุดซึ่งหมายความว่าการไล่ระดับสีควรเปลี่ยนสำหรับมินิแต่ละชุด .. แต่ตามนี้ควร การใช้วานิลลามีปัญหากับคะแนน saddle หรือไม่?
ความท้าทายที่สำคัญอีกประการหนึ่งของการลดฟังก์ชั่นข้อผิดพลาดแบบไม่นูนสูงที่พบได้ทั่วไปสำหรับเครือข่ายประสาทคือการหลีกเลี่ยงการติดกับดักใน minima ท้องถิ่นที่น้อยที่สุด Dauphin และคณะ [19] ยืนยันว่าความยากลำบากเกิดขึ้นจริง ๆ แล้วไม่ใช่จากท้องถิ่นน้อยที่สุด แต่มาจากจุดอานคือจุดที่มิติหนึ่งลาดขึ้นและลาดลงอีก จุดอานเหล่านี้มักจะล้อมรอบด้วยที่ราบสูงของข้อผิดพลาดเดียวกันซึ่งทำให้ยากที่จะหนีออกจากสิงคโปร์ได้เนื่องจากการไล่ระดับสีนั้นใกล้เคียงกับศูนย์ในทุกมิติ
ฉันหมายความว่าโดยเฉพาะอย่างยิ่ง SGD จะมีข้อได้เปรียบที่ชัดเจนกับจุดอานม้าเนื่องจากมันแปรปรวนไปตามจุดบรรจบ ... ความผันผวนและการสุ่มตัวอย่างและฟังก์ชั่นค่าใช้จ่ายที่แตกต่างกันสำหรับยุคแต่ละครั้งควรมีเหตุผลเพียงพอ
สำหรับการไล่ระดับแบตช์ที่เหมาะสมจะทำให้รู้สึกว่าสามารถติดอยู่ในจุดอานม้าได้เนื่องจากฟังก์ชันข้อผิดพลาดคงที่
ฉันสับสนเล็กน้อยในสองส่วนอื่น ๆ