ภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมแรง


9

ขณะนี้ฉันกำลังค้นหาภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมกำลังและอาจจัดหมวดหมู่ของพวกเขา แต่ถัดจาก Sarsa และ Q-Learning + Deep Q-Learning ฉันไม่สามารถหาอัลกอริทึมที่เป็นที่นิยมได้

Wikipediaให้ภาพรวมเกี่ยวกับวิธีการเรียนรู้การเสริมแรงทั่วไปที่แตกต่างกัน แต่ไม่มีการอ้างอิงถึงอัลกอริทึมที่แตกต่างกันในการใช้วิธีการนี้

แต่บางทีฉันสับสนวิธีและอัลกอริธึมทั่วไปและโดยทั่วไปไม่มีการจัดหมวดหมู่จริงในฟิลด์นี้เช่นในสาขาอื่น ๆ ของการเรียนรู้ของเครื่อง ใครบางคนอาจให้คำแนะนำสั้น ๆ แก่ฉันหรือเป็นเพียงการอ้างอิงที่ฉันสามารถเริ่มอ่านวิธีการต่าง ๆ ความแตกต่างระหว่างพวกเขาและอัลกอริทึมตัวอย่างที่ใช้แนวทางนี้


คำตอบ:


14

มีดีคือกระดาษสำรวจที่นี่

โดยสรุปอย่างรวดเร็วนอกจากวิธีการเรียนรู้แบบ Q แล้วยังมีวิธีการเรียนแบบอิงนโยบายอีกด้วยซึ่งแทนที่จะเรียนรู้ฟังก์ชัน Q คุณจะได้เรียนรู้นโยบายที่ดีที่สุดโดยตรง π ใช้.

วิธีการเหล่านี้รวมถึงอัลกอริทึม REINFORCE ยอดนิยมซึ่งเป็นอัลกอริทึมการไล่ระดับสีนโยบาย TRPO และ GAE เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่คล้ายกัน

มีตัวแปรอื่น ๆ มากมายในการไล่ระดับนโยบายและสามารถใช้ร่วมกับ Q-learning ในกรอบนักวิจารณ์ อัลกอริทึม A3C - นักประสานงานที่ได้เปรียบนักแสดงเปรียบ - เป็นหนึ่งในอัลกอริทึมนักวิจารณ์นักแสดงดังกล่าวและเป็นพื้นฐานที่แข็งแกร่งมากในการเรียนรู้การเสริมแรง

คุณสามารถค้นหานโยบายที่ดีที่สุด π โดยการจำลองผลลัพธ์จากอัลกอริธึมการควบคุมที่เหมาะสมที่สุดและสิ่งนี้เรียกว่าการค้นหานโยบายที่มีแนวทาง

นอกเหนือจาก Q-learning และการไล่ระดับนโยบายซึ่งทั้งสองใช้ในการตั้งค่าแบบฟรี แบบจำลองเหล่านี้มีค่าเพราะมันสามารถเป็นตัวอย่างที่มีประสิทธิภาพมากขึ้นอย่างมากมาย

อัลกอริธึมตามโมเดลไม่ได้ จำกัด เฉพาะกับการไล่ระดับนโยบายหรือการเรียนรู้แบบ Q วิธีการทั่วไปคือการประเมินสถานะ / เรียนรู้แบบจำลองพลวัตจากนั้นฝึกอบรมนโยบายด้านบนของสถานะโดยประมาณ

ดังนั้นสำหรับการจำแนกประเภทหนึ่งรายละเอียดจะเป็น

  • การเรียนรู้ฟังก์ชั่น Q หรือ V
  • วิธีการตามนโยบาย
  • รูปแบบตาม

วิธีการตามนโยบายสามารถแบ่งย่อยออกเป็น

  • การไล่ระดับสีนโยบาย
  • นักวิจารณ์
  • ค้นหานโยบาย
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.