หมายเหตุ: ตลอดคำตอบนี้ฉันอ้างถึงการลดการสูญเสียการฝึกอบรมให้น้อยที่สุดและฉันไม่ได้กล่าวถึงเกณฑ์การหยุดเช่นการสูญเสียการตรวจสอบความถูกต้อง ตัวเลือกของเกณฑ์การหยุดไม่ส่งผลกระทบต่อกระบวนการ / แนวคิดที่อธิบายไว้ด้านล่าง
กระบวนการฝึกอบรมโครงข่ายประสาทเทียมคือการหาค่าต่ำสุดของฟังก์ชั่นการสูญเสียโดยที่แทนเมทริกซ์ (หรือเมทริกซ์หลายตัว) ของน้ำหนักระหว่างเซลล์ประสาทและแทนชุดข้อมูลการฝึกอบรม ฉันใช้ตัวห้อยสำหรับเพื่อระบุว่าการลดขนาดของเกิดขึ้นเฉพาะกับน้ำหนัก (นั่นคือเรากำลังมองหาที่ลดขนาด ) ในขณะที่ได้รับการแก้ไขLX(W)WXXLWWLX
ตอนนี้ถ้าเราคิดว่าเรามีองค์ประกอบใน (นั่นคือมีน้ำหนักในเครือข่าย)เป็นพื้นผิวในพื้นที่มิติมิติ ลองจินตนาการว่าเรามีน้ำหนักเซลล์ประสาทเพียงสองตัว ( ) จากนั้นมีการตีความทางเรขาคณิตง่าย ๆ : มันเป็นพื้นผิวในพื้นที่ 3 มิติ สิ่งนี้เกิดขึ้นจากความจริงที่ว่าสำหรับเมทริกซ์ใด ๆ ของน้ำหนักฟังก์ชันการสูญเสียสามารถถูกประเมินบนและค่านั้นจะกลายเป็นระดับความสูงของพื้นผิวPWPLP+1P=2LWX
แต่มีปัญหาเรื่องการไม่นูน พื้นผิวที่ฉันอธิบายจะมีจำนวนน้อยที่สุดในท้องถิ่นและอัลกอริธึมการไล่ระดับสีอ่อนไหวต่อการกลายเป็น "ติด" ใน minima เหล่านั้นในขณะที่การแก้ปัญหาลึก / ต่ำ / ดีกว่าอาจอยู่ใกล้เคียง นี่คือแนวโน้มที่จะเกิดขึ้นถ้ามีการเปลี่ยนแปลงในช่วงการฝึกอบรมการทำซ้ำทั้งหมดเพราะพื้นผิวที่ได้รับการแก้ไขเพื่อให้ ; คุณสมบัติทั้งหมดของมันเป็นแบบคงที่รวมถึงความหลากหลายที่น้อยที่สุดXX
วิธีแก้ปัญหานี้คือการฝึกอบรมแบบกลุ่มย่อยรวมกับการสับ โดยการสับแถวและการฝึกอบรมในเซตย่อยของมันในระหว่างการวนซ้ำที่กำหนดจะเปลี่ยนไปด้วยการวนซ้ำทุกครั้งและเป็นไปได้ค่อนข้างจริงที่จะไม่มีการวนซ้ำสองครั้งในการฝึกซ้ำและ epochs ทั้งหมดในเดียวกัน. ผลที่ได้คือตัวแก้ปัญหาสามารถ "เด้ง" ออกมาจากระดับต่ำสุดในท้องถิ่นได้อย่างง่ายดาย ลองจินตนาการว่าแก้จะติดอยู่ในขั้นต่ำท้องถิ่นย้ำด้วยการฝึกอบรมมินิชุดx_iค่าต่ำสุดในท้องถิ่นนี้สอดคล้องกับประเมินที่ค่าน้ำหนักเฉพาะ เราจะเรียกมันว่าXXiXiLLXi(Wi). ในการทำซ้ำครั้งต่อไปรูปร่างของพื้นผิวการสูญเสียของเราจะเปลี่ยนไปเพราะเราใช้นั่นคืออาจใช้ค่าที่แตกต่างจากและเป็นไปได้มากที่ไม่ตรงกับจำนวนขั้นต่ำในท้องถิ่น! ขณะนี้เราสามารถคำนวณการปรับปรุงการไล่ระดับสีและดำเนินการฝึกอบรมต่อไป ต้องมีความชัดเจน: รูปร่างของจะ - ทั่วไป - ไม่ว่าจะแตกต่างจากที่{i}} โปรดทราบว่านี่ผมหมายถึงฟังก์ชั่นการสูญเสียประเมินในการฝึกอบรมชุด ; มันเป็นพื้นผิวที่สมบูรณ์ที่กำหนดเหนือค่าที่เป็นไปได้ทั้งหมดของXi+1LXi+1(Wi)LXi(Wi)LXi+1LXiLXWมากกว่าการประเมินผลของการสูญเสียที่ (ซึ่งเป็นเพียงเกลา) สำหรับค่าเฉพาะของWโปรดทราบด้วยว่าหากใช้งานแบบย่อส่วนโดยไม่มีการสับเปลี่ยนยังมีระดับ "การกระจาย" ของพื้นผิวที่สูญเสีย แต่จะมีจำนวนข้อผิดพลาดที่ไม่ซ้ำกันจำนวน จำกัด (และค่อนข้างเล็ก) ที่เห็นโดยตัวแก้ปัญหา (โดยเฉพาะ ชุดมินิแบทช์เดียวกัน - และดังนั้นจึงสูญเสียพื้นผิว - ในแต่ละช่วงเวลา)W
สิ่งหนึ่งที่ฉันหลีกเลี่ยงอย่างจงใจคือการอภิปรายเกี่ยวกับขนาดมินิ - แบทช์เพราะมีความคิดเห็นนับล้านเกี่ยวกับเรื่องนี้และมันมีนัยสำคัญที่นำไปใช้ได้จริง (การขนานที่มากขึ้นสามารถทำได้ด้วยแบตขนาดใหญ่) อย่างไรก็ตามฉันเชื่อว่าต่อไปนี้เป็นสิ่งที่ควรค่าแก่การกล่าวขวัญ เนื่องจากถูกประเมินโดยการคำนวณค่าสำหรับแต่ละแถวของ (และการรวมหรือการหาค่าเฉลี่ยเช่นตัวดำเนินการสับเปลี่ยน) สำหรับชุดเมทริกซ์น้ำหนักที่กำหนดการจัดเรียงแถวของไม่มีผลเมื่อใช้แบบเต็ม การไล่ระดับสีแบบแบทช์ (นั่นคือเมื่อแต่ละแบตช์เต็มและการวนซ้ำและยุคเป็นสิ่งเดียวกัน)LXWX X