นโยบายที่ดีที่สุดคือสุ่มเสมอ (นั่นคือแผนที่จากรัฐไปสู่การกระจายความน่าจะเป็นมากกว่าการกระทำ) หากสภาพแวดล้อมนั้นสุ่ม
เลขที่
โดยทั่วไปนโยบายที่ดีที่สุดจะถูกกำหนดไว้เว้นแต่:
ข้อมูลสถานะสำคัญขาดหายไป (POMDP) ตัวอย่างเช่นในแผนที่ที่เอเจนต์ไม่ได้รับอนุญาตให้รู้ตำแหน่งที่แน่นอนหรือจดจำสถานะก่อนหน้านี้และสถานะที่กำหนดไม่เพียงพอที่จะทำให้สับสนระหว่างตำแหน่ง หากเป้าหมายคือไปยังตำแหน่งปลายทางที่เฉพาะเจาะจงนโยบายที่เหมาะสมอาจรวมถึงการย้ายแบบสุ่มบางส่วนเพื่อหลีกเลี่ยงการติดค้าง โปรดทราบว่าสภาพแวดล้อมในกรณีนี้สามารถกำหนดได้ (จากมุมมองของคนที่สามารถมองเห็นทั้งรัฐ) แต่ยังคงนำไปสู่การกำหนดนโยบายสุ่มเพื่อแก้ปัญหา
มีสถานการณ์จำลองทฤษฎีเกมมินิแมกซ์บางประเภทที่นโยบายด้านความปลอดภัยสามารถถูกลงโทษโดยสภาพแวดล้อมหรือเอเจนต์อื่น คิดว่ากรรไกร / กระดาษ / หินหรือภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษ
โดยสัญชาตญาณหากสภาพแวดล้อมเลวร้าย (นั่นคือถ้าตัวแทนอยู่ในสถานะ𝑠และดำเนินการ𝑎แล้วสถานะถัดไปคือเสมอเหมือนกันไม่สำคัญว่าขั้นตอนเวลาใด) ดังนั้นนโยบายที่ดีที่สุดควรจะกำหนดขึ้น (นั่นคือมันควรจะเป็นแผนที่จากอเมริกาไปสู่การกระทำและไม่ใช่การกระจายความน่าจะเป็นเหนือการกระทำ)
ดูเหมือนว่าสมเหตุสมผล แต่คุณสามารถใช้สัญชาตญาณนั้นต่อไปได้ด้วยวิธีการใด ๆ โดยอิงตามฟังก์ชันค่า:
หากคุณพบว่าฟังก์ชั่นค่าที่ดีที่สุดแล้วทำหน้าที่โลภมากด้วยความเคารพมันเป็นนโยบายที่ดีที่สุด
The above statement is just a natural language re-statement of the Bellman optimality equation:
โวลต์* * * *( s ) =สูงสุดaΣr ,s'p ( r ,s'| s,a)(r+γโวลต์* * * *(s') )
เช่นค่าที่ดีที่สุดจะได้รับเมื่อเลือกการกระทำที่เพิ่มรางวัลรวมถึงมูลค่าลดของขั้นตอนต่อไปเสมอ สูงสุดa การดำเนินการเป็นสิ่งที่กำหนดขึ้นมา (ถ้าจำเป็นคุณสามารถแยกความสัมพันธ์กับค่าสูงสุดได้อย่างแน่นอนด้วยเช่นรายการคำสั่งของการกระทำ)
ดังนั้นสภาพแวดล้อมใด ๆ ที่สามารถสร้างแบบจำลองโดย MDP และแก้ไขโดยวิธีการตามมูลค่า (เช่นการวนซ้ำตามค่า, การเรียนรู้แบบ Q) มีนโยบายที่ดีที่สุดซึ่งกำหนดขึ้นได้
เป็นไปได้ในสภาพแวดล้อมที่การแก้ปัญหาที่ดีที่สุดอาจไม่สุ่มเลย (เช่นถ้าคุณเพิ่มการสุ่มใด ๆ ในนโยบายที่ดีที่สุดที่กำหนดขึ้นนโยบายจะแย่ลงอย่างเคร่งครัด) อย่างไรก็ตามเมื่อมีความสัมพันธ์กับค่าสูงสุดสำหรับการกระทำหนึ่งอย่างหรือมากกว่านั้นในหนึ่งรัฐหรือมากกว่านั้นก็จะมีนโยบายที่เหมาะสมและกำหนดขึ้นหลายอย่างที่เทียบเท่ากัน คุณสามารถสร้างนโยบายสุ่มที่ผสมเหล่านี้ในชุดค่าผสมใดก็ได้และมันจะเป็นวิธีที่ดีที่สุด