3
ทำไมมีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมดเสมอ
การเรียนรู้การเสริมแรง: การแนะนำ กำลังดำเนินการพิมพ์ครั้งที่สอง Richard S. Sutton และ Andrew G. Barto (c) 2012, pp. 67-68 การแก้ปัญหาการเรียนรู้การเสริมแรงนั้นหมายถึงการค้นหานโยบายที่ได้รับรางวัลมากมายในระยะยาว สำหรับ MDP ที่ จำกัด เราสามารถกำหนดนโยบายที่เหมาะสมได้อย่างแม่นยำด้วยวิธีต่อไปนี้ ฟังก์ชั่นค่ากำหนดการสั่งซื้อบางส่วนผ่านนโยบาย นโยบายถูกกำหนดให้ดีกว่าหรือเท่ากับนโยบายหากผลตอบแทนที่คาดหวังมากกว่าหรือเท่ากับของสำหรับทุกรัฐ กล่าวอีกนัยหนึ่งถ้าหาก , สำหรับทั้งหมด มีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมด นี่เป็นนโยบายที่ดีที่สุดπ ' π ' π ≥ π ' วีπ ( s ) ≥ วีπ ' ( s ) s ∈ Sππ\piπ′π′\pi'π′π′\pi'π≥π′π≥π′\pi \geq …