4
อะไรคือความแตกต่างระหว่างการวนซ้ำมูลค่าและการวนซ้ำตามนโยบาย?
ในการเรียนรู้เสริมสิ่งที่เป็นความแตกต่างระหว่างการย้ำนโยบายและย้ำคุ้มค่า ? เท่าที่ฉันเข้าใจในการวนซ้ำคุณค่าคุณใช้สมการ Bellman เพื่อแก้ปัญหาสำหรับนโยบายที่ดีที่สุดในขณะที่ในการวนซ้ำนโยบายคุณสุ่มเลือกนโยบายπและหารางวัลของนโยบายนั้น ข้อสงสัยของฉันคือหากคุณเลือกนโยบายแบบสุ่มπใน PI จะรับประกันได้อย่างไรว่าจะเป็นนโยบายที่ดีที่สุดแม้ว่าเราจะเลือกนโยบายแบบสุ่มหลายนโยบายก็ตาม