ใครเป็นผู้คิดค้นการไล่ระดับสีแบบสุ่มสุ่ม?


36

ฉันพยายามที่จะเข้าใจประวัติศาสตร์ของการไล่โทนสีเชื้อสายและStochastic การไล่ระดับสีโคตร เชื้อสายไล่โทนสีถูกคิดค้นในCauchyใน 1,847 Méthode Generale pour la ความละเอียด des systèmes d'สมsimultanées ได้ pp. 536-538 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูที่นี่

ตั้งแต่นั้นมาวิธีการลาดลงของการไล่ระดับสีก็ยังคงพัฒนาอยู่และฉันไม่คุ้นเคยกับประวัติของพวกเขา โดยเฉพาะอย่างยิ่งฉันสนใจในการประดิษฐ์เชื้อสายการไล่ระดับสีสุ่ม

การอ้างอิงที่สามารถใช้ในงานวิชาการได้มากกว่าที่ได้รับการต้อนรับ


3
ฉันได้เรียนรู้เกี่ยวกับ SGD ก่อนการเรียนรู้ของเครื่องจักรดังนั้นมันต้องเป็นสิ่งที่เกิดขึ้นก่อนหน้านี้ทั้งหมด
Aksakal

2
Cauchy เป็นผู้คิดค้น GD ก่อนการเรียนรู้ของเครื่องจักรดังนั้นฉันจึงไม่แปลกใจที่ SGC จะถูกประดิษฐ์ขึ้นมาก่อน
DaL

3
Kiefer-Wolfowitz Stochastic Approx en.wikipedia.org/wiki/Stochastic_approximationเป็นวิธีที่มีส่วนใหญ่นอกเหนือไปจาก "การจำลอง" สำหรับการไล่ระดับสี
Mark L. Stone

3
"Stochastic Gradient Descent" จาก ML นั้นเหมือนกับ "Stochastic Subgradient Method" จากการปรับให้เหมาะสมที่สุด และวิธีการ subgradients ถูกค้นพบในช่วง 1960-1970 ในสหภาพโซเวียตมอสโก อาจจะยังอยู่ในสหรัฐอเมริกา ฉันเห็นวิดีโอที่ Boris Polyak (เขาเป็นผู้เขียนวิธีการทำงานหนัก) กล่าวว่าเขา (และทุกคน) เริ่มคิดเกี่ยวกับวิธีการ subgradients ในปี 1970 ( youtube.com/watch?v=2PcidcPxvyk&t=1963s ) ....
bruziuz

คำตอบ:


27

Stochastic ไล่โทนสีโคตรจะนำหน้าด้วย Stochastic ประมาณเป็นครั้งแรกโดยร็อบบินส์และมอนโรในกระดาษของพวกเขา, Stochastic วิธีการประมาณ Kiefer และ Wolfowitz ต่อมาได้ตีพิมพ์บทความของพวกเขาการประมาณค่า Stochastic ของค่าสูงสุดของฟังก์ชันการถดถอยซึ่งเป็นที่รู้จักมากขึ้นสำหรับคนที่คุ้นเคยกับตัวแปร ML ของการประมาณค่า Stochastic (เช่น Stochastic Gradient Descent) ดังที่ Mark Stone ระบุไว้ในความคิดเห็น การค้นพบยุค 60 จำนวนมากในหลอดเลือดดำนั่นคือ Dvoretzky, Powell, Blum ทั้งหมดที่เราตีพิมพ์เผยแพร่ในวันนี้ มันค่อนข้างก้าวกระโดดเล็กน้อยที่จะได้รับจากวิธี Robbins และ Monro ไปยังวิธี Kiefer Wolfowitz และเป็นเพียงการ reframing ของปัญหาที่จะได้รับ Stochastic Gradient Descent (สำหรับปัญหาการถดถอย) เอกสารข้างต้นได้รับการอ้างถึงอย่างกว้างขวางว่าเป็นบรรพบุรุษของ Stochastic Gradient Descent ดังที่ได้กล่าวไว้ในบทความนี้โดยNocedal, Bottou และ Curtisซึ่งให้มุมมองทางประวัติศาสตร์โดยย่อจากมุมมองการเรียนรู้ของเครื่อง

ฉันเชื่อว่า Kushner และ Yin ในหนังสือStochastic Approximation และ Recursive Algorithms และแอปพลิเคชันของพวกเขาชี้ให้เห็นว่าความคิดนั้นถูกนำมาใช้ในทฤษฎีการควบคุมจนถึงยุค 40 แต่ฉันจำไม่ได้ว่าพวกเขามีการอ้างอิงสำหรับเรื่องนั้นหรือไม่ เกร็ดเล็กเกร็ดน้อยฉันไม่สามารถเข้าถึงหนังสือของพวกเขาเพื่อยืนยันสิ่งนี้ได้

เฮอร์เบิร์ตร็อบบินส์และซัตตันมอนโรวิธีการสุ่มแบบสุ่ม บันทึกทางคณิตศาสตร์ 22, ลำดับที่ 3 (ก.ย. , 1951), หน้า 400-407

เจ Kiefer เจ Wolfowitz Stochastic การประมาณค่าสูงสุดของฟังก์ชั่นการถดถอยแอน คณิตศาสตร์. statist เล่มที่ 23 หมายเลข 3 (1952), 462-466

Leon Bottou และ Frank E. Curtis และ Jorge Nocedal วิธีการปรับให้เหมาะสมสำหรับการเรียนรู้เครื่องขนาดใหญ่ , รายงานทางเทคนิค, arXiv: 1606.04838


คุณสามารถให้การอ้างอิงที่แน่นอนได้หรือไม่? และสำหรับการประดิษฐ์ของ SGD ดูเหมือนว่าจะอยู่ใน 40 แต่ไม่ชัดเจนโดยใครและที่ไหน
DaL

แน่นอนก็เชื่ออย่างกว้างขวางเป็นร็อบบินส์และมอนโรในปี 1951 กับStochastic ประมาณอัลกอริทึม ฉันได้ยินมาว่ามีบางอย่างที่คล้ายกันปรากฏในวรรณกรรมทฤษฎีการควบคุมในยุค 40 (เช่นที่ฉันพูดฉันคิดว่าจาก Kushner และ Yin แต่ฉันไม่ได้มีหนังสือเล่มนั้นที่มีประโยชน์) แต่นอกเหนือจากที่หนึ่งที่ทุกคนดูเหมือนจะอ้าง Robbins และ มอนโรรวมถึง Nocedal และคณะ อ้างอิงฉันเชื่อมโยงกับ
David Kozak

ดังนั้นผู้สมัครชั้นนำของเราในตอนนี้คือ H. Robbins และ S. Monro วิธีการประมาณแบบสุ่ม พงศาวดารของสถิติคณิตศาสตร์, 22 (3): 400–407, 1951. ตามที่เขียนใน Nocedal, Bottou และ Curtis ในpdfs.semanticscholar.org/34dd/ …
DaL

ฉันจึงเรียกว่าที่มาของ SGD แต่โดยสรุป (จริง ๆ แล้วเป็นนามธรรมในแง่ของวันนี้) มันถูกเขียนว่า "M (x) จะถือว่าเขาเป็นฟังก์ชั่นเสียงเดียวของ x แต่ไม่ทราบ ~ vn ไปยังผู้ทดลองและมัน ต้องการที่จะหาคำตอบ x = 0 ของสมการ thc M (x) = a โดยที่ a คือค่าคงที่ที่กำหนด " หากไม่ทราบ M (x) จะไม่มีใครรู้ได้ บางทีมันอาจเป็นบรรพบุรุษโบราณอื่น ๆ ?
DaL

เห็นด้วยในบางแง่ Kiefer Wolfowitz ใช้การวิเคราะห์สิ่งนี้เพื่อจัดทำบทความของพวกเขาซึ่งเป็นที่จดจำได้มากขึ้นในรูปแบบที่เราเห็นในปัจจุบัน ตามที่กล่าวไว้ข้างต้นโดย Mark Stone กระดาษของพวกเขาสามารถพบได้ที่นี่: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392
David Kozak

14

ดู

Rosenblatt F. The perceptron: แบบจำลองความน่าจะเป็นสำหรับการจัดเก็บข้อมูลและการจัดระเบียบในสมอง การทบทวนทางจิตวิทยา 1958 พ.ย. ; 65 (6): 386

ฉันไม่แน่ใจว่า SGD ได้ถูกประดิษฐ์ขึ้นก่อนหน้านี้ในวรรณคดีการเพิ่มประสิทธิภาพหรือไม่ - แต่ที่นี่ฉันเชื่อว่าเขาอธิบายการประยุกต์ใช้ SGD เพื่อฝึกอบรมผู้สังเกตการณ์

หากระบบอยู่ภายใต้การเสริมแรงเชิงบวกระบบ AV บวกจะถูกเพิ่มไปยังค่าของ A-units ที่ใช้งานอยู่ทั้งหมดในชุดของการตอบสนอง "กับ" ในขณะที่ AV เชิงลบจะถูกเพิ่มเข้าไปในหน่วยที่ใช้งานอยู่ในแหล่งที่มา - ชุดคำตอบ "ปิด"

เขาเรียกสิ่งเหล่านี้ว่า "การเสริมกำลังสองแบบ"

นอกจากนี้เขายังอ้างอิงหนังสือที่มีเพิ่มเติมเกี่ยวกับ "ระบบ bivalent" เหล่านี้

Rosenblatt F. The perceptron: ทฤษฎีการแยกทางสถิติในระบบความรู้ (Project Para) ห้องปฏิบัติการการบินของคอร์เนล; 1958


1
เป็นขั้นตอนที่ดีล่วงหน้าขอบคุณ! ฉันพบการอ้างอิงแรกออนไลน์ที่นี่citeseerx.ist.psu.edu/viewdoc/ …ฉันจะไปที่นี่ อย่างไรก็ตามฉันคาดว่าจะพบอัลกอริทึมที่ชัดเจนและเป็นทางการมากขึ้น
DaL

3
+1 สำหรับหมายเหตุเกี่ยวกับการปรับให้เหมาะสม เนื่องจากมันถูกใช้ในการเรียนรู้ของเครื่องจักรเพื่อเพิ่มประสิทธิภาพและเนื่องจากการปรับให้เหมาะสมกลายเป็นเรื่องใหญ่ 40 หรือ 50 ปีก่อน ML - และคอมพิวเตอร์ก็เข้ามาในภาพในเวลาเดียวกัน - ซึ่งดูเหมือนว่าจะเป็นผู้นำที่ดี
Wayne

ฉันไม่เข้าใจว่าทำไมคุณพูดว่าคำพูดนี้อธิบายถึง SGD
อะมีบาพูดว่า Reinstate Monica

@ amoeba หวังว่าฉันจะไม่ทำผิดพลาดเพียงแค่อ่านบทความ แต่ฉันถึงแม้ว่าเขากำลังอธิบายการปรับปรุง perceptron ซึ่งเป็นเพียง SGD ที่มีอัตราการเรียนรู้คงที่
user0

3
ถูกตัอง. ฉันแค่บอกว่าแง่มุมสโตแคสติกไม่ชัดเจนจากคำพูดที่คุณเลือก ฉันหมายถึง "สุ่ม" GD เพียงแค่หมายความว่าการอัปเดตจะทำตัวอย่างการฝึกอบรมครั้งละหนึ่งรายการ (แทนที่จะใช้การไล่ระดับสีโดยใช้ตัวอย่างการฝึกอบรมที่มีทั้งหมด) อัลกอริทึมที่กำหนดในen.wikipedia.org/wiki/Perceptron#Stepsทำให้มุมมอง "สุ่ม" ชัดเจนทันทีในขั้นตอนที่ 2
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.