มีดีคือกระดาษสำรวจที่นี่
โดยสรุปอย่างรวดเร็วนอกจากวิธีการเรียนรู้แบบ Q แล้วยังมีวิธีการเรียนแบบอิงนโยบายอีกด้วยซึ่งแทนที่จะเรียนรู้ฟังก์ชัน Q คุณจะได้เรียนรู้นโยบายที่ดีที่สุดโดยตรง π ใช้.
วิธีการเหล่านี้รวมถึงอัลกอริทึม REINFORCE ยอดนิยมซึ่งเป็นอัลกอริทึมการไล่ระดับสีนโยบาย TRPO และ GAE เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่คล้ายกัน
มีตัวแปรอื่น ๆ มากมายในการไล่ระดับนโยบายและสามารถใช้ร่วมกับ Q-learning ในกรอบนักวิจารณ์ อัลกอริทึม A3C - นักประสานงานที่ได้เปรียบนักแสดงเปรียบ - เป็นหนึ่งในอัลกอริทึมนักวิจารณ์นักแสดงดังกล่าวและเป็นพื้นฐานที่แข็งแกร่งมากในการเรียนรู้การเสริมแรง
คุณสามารถค้นหานโยบายที่ดีที่สุด π โดยการจำลองผลลัพธ์จากอัลกอริธึมการควบคุมที่เหมาะสมที่สุดและสิ่งนี้เรียกว่าการค้นหานโยบายที่มีแนวทาง
นอกเหนือจาก Q-learning และการไล่ระดับนโยบายซึ่งทั้งสองใช้ในการตั้งค่าแบบฟรี แบบจำลองเหล่านี้มีค่าเพราะมันสามารถเป็นตัวอย่างที่มีประสิทธิภาพมากขึ้นอย่างมากมาย
อัลกอริธึมตามโมเดลไม่ได้ จำกัด เฉพาะกับการไล่ระดับนโยบายหรือการเรียนรู้แบบ Q วิธีการทั่วไปคือการประเมินสถานะ / เรียนรู้แบบจำลองพลวัตจากนั้นฝึกอบรมนโยบายด้านบนของสถานะโดยประมาณ
ดังนั้นสำหรับการจำแนกประเภทหนึ่งรายละเอียดจะเป็น
- การเรียนรู้ฟังก์ชั่น Q หรือ V
- วิธีการตามนโยบาย
- รูปแบบตาม
วิธีการตามนโยบายสามารถแบ่งย่อยออกเป็น
- การไล่ระดับสีนโยบาย
- นักวิจารณ์
- ค้นหานโยบาย