ฉันได้เห็นข้อสรุปที่คล้ายกันจากการพูดคุยหลายครั้งว่าเมื่อขนาดของรถมินิบัสเพิ่มขึ้นการบรรจบกันของ SGD จะยากขึ้น / แย่ลงตัวอย่างเช่นบทความนี้และคำตอบนี้ นอกจากนี้ฉันเคยได้ยินคนใช้เทคนิคเช่นอัตราการเรียนรู้ขนาดเล็กหรือขนาดชุดในระยะแรกเพื่อแก้ไขปัญหานี้ด้วยขนาดชุดใหญ่
อย่างไรก็ตามดูเหมือนว่าเคาน์เตอร์ - สัญชาตญาณขณะที่การสูญเสียเฉลี่ยของรถมินิบัสอาจจะคิดว่าเป็นการประมาณการสูญเสียข้อมูลที่คาดว่าจะกระจายข้อมูล
ยิ่งขนาดแบทช์ยิ่งมีความแม่นยำมากขึ้นทำไมในทางปฏิบัติไม่เป็นเช่นนั้น?
นี่คือความคิด (อาจผิด) ของฉันที่พยายามอธิบาย
พารามิเตอร์ของแบบจำลองขึ้นอยู่กับแต่ละอื่น ๆ เมื่อชุดมีขนาดใหญ่เกินไปมันจะส่งผลกระทบต่อพารามิเตอร์มากเกินไปในคราวเดียวมันยากสำหรับพารามิเตอร์ที่จะไปถึงการพึ่งพาที่มั่นคง? (เช่นปัญหากะกะแปรสภาพภายในที่กล่าวถึงในเอกสารการทำให้เป็นมาตรฐานชุด )
หรือเมื่อพารามิเตอร์เกือบทั้งหมดมีความรับผิดชอบในการวนซ้ำทุกครั้งพวกเขาจะมีแนวโน้มที่จะเรียนรู้รูปแบบที่ซ้ำซ้อนโดยนัยจึงลดความสามารถของตัวแบบ? (ฉันหมายถึงว่าสำหรับปัญหาการจำแนกเลขหลักบางรูปแบบควรมีความรับผิดชอบสำหรับจุดบางส่วนสำหรับขอบ แต่เมื่อสิ่งนี้เกิดขึ้นทุกรูปแบบพยายามที่จะรับผิดชอบรูปร่างทั้งหมด)
หรือเป็นเพราะเมื่อขนาดของแบตช์ใกล้เคียงกับขนาดของชุดฝึกอบรมมินิบัสอาจไม่สามารถมองเห็นได้เหมือนไอดอลจากการกระจายข้อมูลอีกต่อไปเนื่องจากมีความน่าจะเป็นมากสำหรับมินิบัสที่สัมพันธ์กันหรือไม่
การปรับปรุง
ตามที่ระบุไว้ในคำตอบของเบอนัวต์ซานเชซเหตุผลสำคัญอย่างหนึ่งคือมินิบัสขนาดใหญ่ต้องการการคำนวณที่มากขึ้นเพื่อทำให้การอัปเดตเสร็จสมบูรณ์หนึ่งครั้งและการวิเคราะห์ส่วนใหญ่ใช้จำนวนเงินที่แน่นอนของการฝึก
อย่างไรก็ตามบทความนี้ (Wilson และ Martinez, 2003) แสดงให้เห็นว่าขนาดของชุดที่ใหญ่กว่านั้นยังคงเป็นข้อเสียเปรียบเล็กน้อย เป็นเช่นนั้นหรือไม่