โคตรการไล่ระดับสีแบบสุ่มสามารถหลีกเลี่ยงปัญหาระดับต่ำสุดในพื้นที่ได้อย่างไร


19

ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม
มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?


10
คำถามของคุณเกี่ยวข้องกับชื่อเรื่องของคุณอย่างไร
Neil G

คำตอบ:


22

อัลกอริทึมการไล่ระดับสีแบบสุ่ม (SG) ทำตัวเหมือนอัลกอริทึมแบบจำลองการอบอ่อน (SA) ซึ่งอัตราการเรียนรู้ของ SG นั้นสัมพันธ์กับอุณหภูมิของ SA การสุ่มหรือเสียงรบกวนที่แนะนำโดย SG ช่วยให้สามารถหลบหนีจาก minima ท้องถิ่นเพื่อให้ถึงขั้นต่ำที่ดีกว่า แน่นอนขึ้นอยู่กับว่าคุณจะลดอัตราการเรียนรู้เร็วแค่ไหน อ่านหัวข้อ 4.2 ของStochastic Gradient Learning ใน Neural Networks (pdf)ซึ่งมีการอธิบายรายละเอียดเพิ่มเติม


4
อย่าทำส่วนที่ 4.1 เป็นอย่างดีซึ่งทฤษฎีบทที่สองมีไว้สำหรับกรณีที่ จำกัด ของฟังก์ชัน nonconvex โดยบอกว่ามันมาบรรจบกัน (กับตัวอย่างที่ไม่มีที่สิ้นสุด) จนถึงจุดที่มีการไล่ระดับสี 0 มันอาจจะไม่ใช่ค่าต่ำสุดทั่วโลกหรืออาจเป็นค่าสูงสุด . SGD น่าสนใจมากขึ้นด้วยเหตุผลที่เป็นประโยชน์มากขึ้นเช่นการเรียนรู้แบบกระจายไม่แน่นอนว่ามันจะ "หลีกเลี่ยง" ขั้นต่ำของท้องถิ่น
ไม่มี

2

ในการไล่ระดับสีแบบสุ่มสุ่มพารามิเตอร์จะถูกประเมินสำหรับทุกการสังเกตซึ่งตรงข้ามกับตัวอย่างทั้งหมดในการไล่ระดับสีแบบปกติ (การไล่ระดับสีแบบแบทช์) นี่คือสิ่งที่ทำให้มีการสุ่มมากมาย เส้นทางของการไล่ระดับสีแบบสุ่มสุ่มเดินไปตามสถานที่ต่างๆมากขึ้นและมีแนวโน้มที่จะ "กระโดดลง" ต่ำสุดในระดับท้องถิ่นและค้นหาระดับต่ำสุดทั่วโลก (หมายเหตุ *) อย่างไรก็ตามเชื้อสายการไล่ระดับสีแบบสุ่มสามารถยังคงติดอยู่ในระดับต่ำสุดในท้องถิ่น

หมายเหตุ: เป็นเรื่องปกติที่จะรักษาอัตราการเรียนรู้ให้คงที่ในกรณีนี้การไล่ระดับสีแบบสุ่มสุ่มไม่ได้มาบรรจบกัน มันแค่เดินไปรอบ ๆ จุดเดียวกัน อย่างไรก็ตามหากอัตราการเรียนรู้ลดลงเมื่อเวลาผ่านไปมันจะสัมพันธ์กับจำนวนการวนซ้ำจากนั้นการไล่ระดับสีแบบสุ่ม Stochastic จะมาบรรจบกัน


มันไม่เป็นความจริงที่สืบเชื้อสายการไล่ระดับสีแบบสุ่มไม่ได้มาบรรจบกันและสงสัยในจุดหนึ่ง ถ้าเป็นเช่นนั้นอัตราการเรียนรู้คงที่ อย่างไรก็ตามอัตราการเรียนรู้มีแนวโน้มที่จะเป็นศูนย์เพราะด้วยวิธีนี้เมื่ออัลกอริทึมใกล้เคียงกับฟังก์ชั่นนูนต่ำสุดมันจะหยุดการแกว่งและการลู่เข้าหากัน กุญแจสำคัญของการพิสูจน์การรวมกันของการไล่ระดับสีแบบสุ่มเป็นเงื่อนไขที่กำหนดในชุดอัตราการเรียนรู้ ดูสมการ (6) และ (27) ของกระดาษต้นฉบับของ Robbins และ Monro
clara

2

ตามที่ได้กล่าวไปแล้วในคำตอบก่อนหน้านี้การไล่ระดับสีแบบสุ่มมีพื้นผิวที่ผิดพลาดมากขึ้นเนื่องจากคุณกำลังประเมินตัวอย่างแต่ละตัวอย่างซ้ำ ๆ ในขณะที่คุณกำลังก้าวไปสู่ระดับต่ำสุดของโลกในการไล่ระดับสีแบบแบทช์ในทุกยุคสมัย (ผ่านชุดฝึกอบรม) แต่ละขั้นตอนของการไล่ระดับสีแบบลาดลงแบบสุ่มสุ่มต้องไม่ชี้ไปที่ค่าต่ำสุดทั่วโลกขึ้นอยู่กับตัวอย่างที่ประเมิน

เพื่อให้เห็นภาพนี้โดยใช้ตัวอย่างสองมิตินี่คือตัวเลขและภาพวาดจากคลาสการเรียนรู้ของเครื่องของ Andrew Ng

โคตรลาดแรก:

ป้อนคำอธิบายรูปภาพที่นี่

ประการที่สองโคตรลาดไล่ระดับ:

ป้อนคำอธิบายรูปภาพที่นี่

วงกลมสีแดงในรูปด้านล่างจะแสดงให้เห็นว่าการไล่ระดับสีแบบสุ่มจะ "อัปเดต" ที่ใดที่หนึ่งในพื้นที่รอบ ๆ ระดับต่ำสุดทั่วโลกหากคุณใช้อัตราการเรียนรู้คงที่

ดังนั้นต่อไปนี้เป็นเคล็ดลับที่เป็นประโยชน์หากคุณกำลังใช้การไล่ระดับสีแบบสุ่มสุ่ม:

1) สับเปลี่ยนชุดการฝึกก่อนแต่ละยุค (หรือซ้ำในตัวแปร "มาตรฐาน")

2) ใช้อัตราการเรียนรู้แบบปรับตัวเพื่อ "หลอม" ให้ใกล้เคียงกับค่าต่ำสุดของโลก


ทำไมคุณต้องการสลับชุดการฝึกซ้อมหน้าแต่ละยุค อัลกอริทึมของ SGD เลือกตัวอย่างการฝึกอบรมโดยการสุ่ม
Vladislavs Dovgalecs

การสับเป็นวิธีหนึ่งในการสุ่มเลือกตัวอย่างการฝึกอบรมเหล่านั้น ในการใช้งานของฉันฉันมักจะสลับชุดการฝึกอบรมก่อนยุคสมัยแต่ละครั้งและเพียงแค่forผ่านชุดสับ

2
อืมในวิกิพีเดียอัลกอริทึม SGD อธิบายว่า "ไม่มีการแทนที่" อย่างไรก็ตาม Bottou อธิบายอย่างที่คุณทำ (Bottou, Léon) "การเรียนรู้เครื่องขนาดใหญ่พร้อมการไล่ระดับสีแบบสุ่ม Stochastic" การดำเนินการของ COMPSTAT'2010 Physica-Verlag HD, 2010 177-186.) และฉันคิดว่าที่นี่ฉันมักจะเชื่อ Bottou มากกว่ารายการ Wikipedia นี้

4
@ xeon ลองดูบทความนี้ซึ่งระบุว่าการสุ่มตัวอย่างโดยไม่มีการเปลี่ยนจะดีกว่า ความเข้าใจของฉันคือการไม่มีการทดแทนมีแนวโน้มที่จะดีกว่าสังเกตุ แต่การวิเคราะห์เชิงทฤษฎีไม่สามารถใช้ได้จนกระทั่งค่อนข้างเร็ว ๆ นี้
Dougal

1
@ xeon ฉันเพิ่งดูสไลด์ PDF ของฉันจากหลักสูตรของ Andrew Ng และดูเหมือนว่าเขาอธิบายไว้ใน Wikipedia (ตัวแปร "ไม่ต้องเปลี่ยน") ไม่เหมือน Bottou ฉันอัพโหลดภาพหน้าจอที่นี่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.