Stochastic ไล่โทนสีโคตรจะนำหน้าด้วย Stochastic ประมาณเป็นครั้งแรกโดยร็อบบินส์และมอนโรในกระดาษของพวกเขา, Stochastic วิธีการประมาณ Kiefer และ Wolfowitz ต่อมาได้ตีพิมพ์บทความของพวกเขาการประมาณค่า Stochastic ของค่าสูงสุดของฟังก์ชันการถดถอยซึ่งเป็นที่รู้จักมากขึ้นสำหรับคนที่คุ้นเคยกับตัวแปร ML ของการประมาณค่า Stochastic (เช่น Stochastic Gradient Descent) ดังที่ Mark Stone ระบุไว้ในความคิดเห็น การค้นพบยุค 60 จำนวนมากในหลอดเลือดดำนั่นคือ Dvoretzky, Powell, Blum ทั้งหมดที่เราตีพิมพ์เผยแพร่ในวันนี้ มันค่อนข้างก้าวกระโดดเล็กน้อยที่จะได้รับจากวิธี Robbins และ Monro ไปยังวิธี Kiefer Wolfowitz และเป็นเพียงการ reframing ของปัญหาที่จะได้รับ Stochastic Gradient Descent (สำหรับปัญหาการถดถอย) เอกสารข้างต้นได้รับการอ้างถึงอย่างกว้างขวางว่าเป็นบรรพบุรุษของ Stochastic Gradient Descent ดังที่ได้กล่าวไว้ในบทความนี้โดยNocedal, Bottou และ Curtisซึ่งให้มุมมองทางประวัติศาสตร์โดยย่อจากมุมมองการเรียนรู้ของเครื่อง
ฉันเชื่อว่า Kushner และ Yin ในหนังสือStochastic Approximation และ Recursive Algorithms และแอปพลิเคชันของพวกเขาชี้ให้เห็นว่าความคิดนั้นถูกนำมาใช้ในทฤษฎีการควบคุมจนถึงยุค 40 แต่ฉันจำไม่ได้ว่าพวกเขามีการอ้างอิงสำหรับเรื่องนั้นหรือไม่ เกร็ดเล็กเกร็ดน้อยฉันไม่สามารถเข้าถึงหนังสือของพวกเขาเพื่อยืนยันสิ่งนี้ได้
เฮอร์เบิร์ตร็อบบินส์และซัตตันมอนโรวิธีการสุ่มแบบสุ่ม
บันทึกทางคณิตศาสตร์ 22, ลำดับที่ 3 (ก.ย. , 1951), หน้า 400-407
เจ Kiefer เจ Wolfowitz Stochastic การประมาณค่าสูงสุดของฟังก์ชั่นการถดถอยแอน คณิตศาสตร์. statist เล่มที่ 23 หมายเลข 3 (1952), 462-466
Leon Bottou และ Frank E. Curtis และ Jorge Nocedal วิธีการปรับให้เหมาะสมสำหรับการเรียนรู้เครื่องขนาดใหญ่ , รายงานทางเทคนิค, arXiv: 1606.04838