ฉันรู้ว่ากระทู้นี้ค่อนข้างเก่าและคนอื่นทำได้ดีมากในการอธิบายแนวคิดเช่น minima ท้องถิ่น, overfitting เป็นต้นอย่างไรก็ตามเนื่องจาก OP มองหาทางเลือกอื่นฉันจะพยายามมีส่วนร่วมและหวังว่ามันจะเป็นแรงบันดาลใจให้กับแนวคิดที่น่าสนใจมากขึ้น
แนวคิดคือการแทนที่ทุก ๆ น้ำหนัก w เป็น w + t โดยที่ t คือตัวเลขสุ่มหลังจากการแจกแจงแบบเกาส์เซียน เอาต์พุตสุดท้ายของเครือข่ายคือเอาท์พุทเฉลี่ยเหนือค่าที่เป็นไปได้ทั้งหมดของ t ซึ่งสามารถวิเคราะห์ได้ จากนั้นคุณสามารถเพิ่มประสิทธิภาพของปัญหาด้วยการไล่ระดับสีหรือ LMA หรือวิธีการเพิ่มประสิทธิภาพอื่น ๆ เมื่อการเพิ่มประสิทธิภาพเสร็จสิ้นคุณมีสองตัวเลือก ทางเลือกหนึ่งคือลดซิกม่าในการแจกแจงแบบเกาส์และทำการปรับให้เหมาะสมซ้ำแล้วซ้ำอีกจนกระทั่งซิกมาถึง 0 จากนั้นคุณจะมีค่าต่ำสุดในท้องถิ่นที่ดีกว่า อีกตัวเลือกหนึ่งคือใช้ตัวเลขที่มีการสุ่มในน้ำหนักของมันก็มักจะมีคุณสมบัติทั่วไปที่ดีกว่า
วิธีแรกคือเคล็ดลับการปรับให้เหมาะสม (ฉันเรียกมันว่าการขุดอุโมงค์แบบ Convolutional เนื่องจากใช้การแปลงค่าพารามิเตอร์เพื่อเปลี่ยนฟังก์ชั่นเป้าหมาย) มันทำให้พื้นผิวของแนวการทำงานของต้นทุนลดลงและกำจัด minima ท้องถิ่นบางส่วนออกไป ทำให้การค้นหาขั้นต่ำทั่วโลกง่ายขึ้น (หรือต่ำกว่าท้องถิ่นขั้นต่ำ)
วิธีที่สองเกี่ยวข้องกับการฉีดเสียง (ตามน้ำหนัก) โปรดสังเกตว่าสิ่งนี้ทำในเชิงวิเคราะห์ซึ่งหมายความว่าผลลัพธ์สุดท้ายคือเครือข่ายเดียวเดียวแทนที่จะเป็นหลายเครือข่าย
ต่อไปนี้เป็นตัวอย่างผลลัพธ์สำหรับปัญหาแบบสองเกลียว สถาปัตยกรรมเครือข่ายเหมือนกันสำหรับทั้งสามคน: มีเลเยอร์ที่ซ่อนอยู่เพียง 30 โหนดเท่านั้นและชั้นเอาต์พุตเป็นแบบเชิงเส้น อัลกอริทึมการเพิ่มประสิทธิภาพที่ใช้คือ LMA ภาพด้านซ้ายใช้สำหรับตั้งค่าวานิลลา ตรงกลางใช้วิธีแรก (คือลดซิกม่าซ้ำ ๆ ไปที่ 0); ที่สามคือการใช้ sigma = 2
คุณจะเห็นได้ว่าวิธีการแก้ปัญหาวานิลลานั้นเลวร้ายที่สุดการขุดอุโมงค์แบบ Convolutional ทำได้ดีกว่าและการฉีดสัญญาณรบกวน (ด้วยการขุดอุโมงค์แบบ Convolutional) นั้นดีที่สุด (ในแง่ของคุณสมบัติทั่วไป)
ทั้งอุโมงค์แบบ convolutional และวิธีการวิเคราะห์การฉีดเสียงเป็นแนวคิดดั้งเดิมของฉัน บางทีพวกเขาอาจเป็นคนอื่นที่น่าสนใจ รายละเอียดสามารถพบได้ในกระดาษของฉันรวมจำนวนอินฟินิตี้ของโครงข่ายประสาทเข้า คำเตือน: ฉันไม่ใช่นักเขียนเชิงวิชาการและไม่ได้รับการตรวจสอบโดยผู้เชี่ยวชาญ หากคุณมีคำถามเกี่ยวกับวิธีการที่ฉันกล่าวถึงโปรดแสดงความคิดเห็น