ข้อได้เปรียบที่สำคัญของการใช้ minibatch เมื่อเทียบกับชุดเต็มรูปแบบไปกลับไปที่ความคิดพื้นฐานของการไล่ระดับสีสุ่มเชื้อสาย1
ในการไล่ระดับสีแบบแบทช์คุณคำนวณการไล่ระดับสีบนชุดข้อมูลทั้งหมดโดยเฉลี่ยมากกว่าข้อมูลจำนวนมาก ใช้หน่วยความจำมากมายในการทำเช่นนั้น แต่แต้มต่อที่แท้จริงคือเส้นทางการไล่ระดับสีแบบแบตช์ที่คุณอยู่ในจุดที่ไม่ดี (จุดอาน)
ในทางกลับกันคุณสามารถอัปเดตพารามิเตอร์ของคุณโดยเพิ่ม (เครื่องหมายลบ) การไล่ระดับสีที่คำนวณในอินสแตนซ์เดียวของชุดข้อมูล เนื่องจากมันขึ้นอยู่กับจุดข้อมูลแบบสุ่มจุดหนึ่งจึงมีเสียงดังมากและอาจดับไปในทิศทางที่ไกลจากการไล่ระดับแบทช์ อย่างไรก็ตามเสียงดังเป็นสิ่งที่คุณต้องการในการเพิ่มประสิทธิภาพแบบไม่ต้องนูนเพราะมันช่วยให้คุณรอดพ้นจากจุดอานหรือจุดต่ำสุดในท้องถิ่น (ทฤษฎีบท 6 ใน [2]) ข้อเสียคือมันไม่มีประสิทธิภาพมากและคุณจำเป็นต้องวนซ้ำชุดข้อมูลทั้งหมดหลายครั้งเพื่อหาทางออกที่ดี
วิธีการ minibatch เป็นการประนีประนอมที่ฉีดเสียงรบกวนที่เพียงพอในการปรับปรุงการไล่ระดับสีแต่ละครั้งในขณะที่การบรรจบกันอย่างรวดเร็ว
1 Bottou, L. (2010) การเรียนรู้ของเครื่องขนาดใหญ่พร้อมการไล่ระดับสีแบบสุ่ม ในการดำเนินการของ COMPSTAT'2010 (pp. 177-186) Physica-Verlag HD
[2] Ge, R. , Huang, F. , Jin, C. , & Yuan, Y. (2015, มิถุนายน) หลบหนีจากการไล่ระดับสีแบบสุ่มของ Saddle Points ออนไลน์เพื่อการสลายตัวของเทนเซอร์ ใน COLT (pp. 797-842)
แก้ไข:
ฉันเพิ่งเห็นความคิดเห็นนี้บน Facebook ของ Yann LeCun ซึ่งให้มุมมองที่สดใหม่สำหรับคำถามนี้ (ขออภัยไม่รู้วิธีเชื่อมโยงไปยัง fb)
การฝึกฝนกับรถมินิบัสขนาดใหญ่นั้นไม่ดีต่อสุขภาพของคุณ ที่สำคัญกว่านั้นไม่ดีสำหรับข้อผิดพลาดในการทดสอบของคุณ เพื่อน ๆ อย่าปล่อยให้เพื่อนใช้มินิบัสที่มีขนาดใหญ่กว่า 32 ลองดูสิ: มีเพียงคนเดียวที่เปลี่ยนมาเป็นมินิบัสขนาดใหญ่กว่าหนึ่งตั้งแต่ปี 2012 เพราะ GPUs ไม่มีประสิทธิภาพสำหรับขนาดแบทช์ที่เล็กกว่า 32 นั่นเป็นเหตุผลที่แย่มาก มันหมายถึงฮาร์ดแวร์ของเราแย่
เขาอ้างถึงบทความนี้ซึ่งเพิ่งโพสต์เมื่อวันที่ arXiv ไม่กี่วันที่ผ่านมา (เม.ย. 2018) ซึ่งมีมูลค่าการอ่าน
Dominic Masters, Carlo Luschi, มาฝึกอบรมแบบกลุ่มเล็กสำหรับเครือข่าย Neural Deep , arXiv: 1804.07612v1
จากนามธรรม
ในขณะที่การใช้แบตช์ขนาดเล็กขนาดใหญ่เพิ่มความสามารถในการคำนวณแบบขนานที่มีอยู่แสดงให้เห็นว่ามีการฝึกอบรมกลุ่มเล็ก ๆ เพื่อเพิ่มประสิทธิภาพของการวางนัยทั่วไป ...
ประสิทธิภาพที่ดีที่สุดได้รับอย่างต่อเนื่องสำหรับขนาดมินิ - แบทช์ระหว่าง m = 2 และ m = 32 ซึ่งตรงกันข้ามกับงานล่าสุดที่สนับสนุนการใช้ขนาดมินิ - แบทช์ในหลักพัน