ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม
มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?
ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม
มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?
คำตอบ:
อัลกอริทึมการไล่ระดับสีแบบสุ่ม (SG) ทำตัวเหมือนอัลกอริทึมแบบจำลองการอบอ่อน (SA) ซึ่งอัตราการเรียนรู้ของ SG นั้นสัมพันธ์กับอุณหภูมิของ SA การสุ่มหรือเสียงรบกวนที่แนะนำโดย SG ช่วยให้สามารถหลบหนีจาก minima ท้องถิ่นเพื่อให้ถึงขั้นต่ำที่ดีกว่า แน่นอนขึ้นอยู่กับว่าคุณจะลดอัตราการเรียนรู้เร็วแค่ไหน อ่านหัวข้อ 4.2 ของStochastic Gradient Learning ใน Neural Networks (pdf)ซึ่งมีการอธิบายรายละเอียดเพิ่มเติม
ในการไล่ระดับสีแบบสุ่มสุ่มพารามิเตอร์จะถูกประเมินสำหรับทุกการสังเกตซึ่งตรงข้ามกับตัวอย่างทั้งหมดในการไล่ระดับสีแบบปกติ (การไล่ระดับสีแบบแบทช์) นี่คือสิ่งที่ทำให้มีการสุ่มมากมาย เส้นทางของการไล่ระดับสีแบบสุ่มสุ่มเดินไปตามสถานที่ต่างๆมากขึ้นและมีแนวโน้มที่จะ "กระโดดลง" ต่ำสุดในระดับท้องถิ่นและค้นหาระดับต่ำสุดทั่วโลก (หมายเหตุ *) อย่างไรก็ตามเชื้อสายการไล่ระดับสีแบบสุ่มสามารถยังคงติดอยู่ในระดับต่ำสุดในท้องถิ่น
หมายเหตุ: เป็นเรื่องปกติที่จะรักษาอัตราการเรียนรู้ให้คงที่ในกรณีนี้การไล่ระดับสีแบบสุ่มสุ่มไม่ได้มาบรรจบกัน มันแค่เดินไปรอบ ๆ จุดเดียวกัน อย่างไรก็ตามหากอัตราการเรียนรู้ลดลงเมื่อเวลาผ่านไปมันจะสัมพันธ์กับจำนวนการวนซ้ำจากนั้นการไล่ระดับสีแบบสุ่ม Stochastic จะมาบรรจบกัน
ตามที่ได้กล่าวไปแล้วในคำตอบก่อนหน้านี้การไล่ระดับสีแบบสุ่มมีพื้นผิวที่ผิดพลาดมากขึ้นเนื่องจากคุณกำลังประเมินตัวอย่างแต่ละตัวอย่างซ้ำ ๆ ในขณะที่คุณกำลังก้าวไปสู่ระดับต่ำสุดของโลกในการไล่ระดับสีแบบแบทช์ในทุกยุคสมัย (ผ่านชุดฝึกอบรม) แต่ละขั้นตอนของการไล่ระดับสีแบบลาดลงแบบสุ่มสุ่มต้องไม่ชี้ไปที่ค่าต่ำสุดทั่วโลกขึ้นอยู่กับตัวอย่างที่ประเมิน
เพื่อให้เห็นภาพนี้โดยใช้ตัวอย่างสองมิตินี่คือตัวเลขและภาพวาดจากคลาสการเรียนรู้ของเครื่องของ Andrew Ng
โคตรลาดแรก:
ประการที่สองโคตรลาดไล่ระดับ:
วงกลมสีแดงในรูปด้านล่างจะแสดงให้เห็นว่าการไล่ระดับสีแบบสุ่มจะ "อัปเดต" ที่ใดที่หนึ่งในพื้นที่รอบ ๆ ระดับต่ำสุดทั่วโลกหากคุณใช้อัตราการเรียนรู้คงที่
ดังนั้นต่อไปนี้เป็นเคล็ดลับที่เป็นประโยชน์หากคุณกำลังใช้การไล่ระดับสีแบบสุ่มสุ่ม:
1) สับเปลี่ยนชุดการฝึกก่อนแต่ละยุค (หรือซ้ำในตัวแปร "มาตรฐาน")
2) ใช้อัตราการเรียนรู้แบบปรับตัวเพื่อ "หลอม" ให้ใกล้เคียงกับค่าต่ำสุดของโลก
for
ผ่านชุดสับ