คำถามติดแท็ก value-iteration

4
อะไรคือความแตกต่างระหว่างการวนซ้ำมูลค่าและการวนซ้ำตามนโยบาย?
ในการเรียนรู้เสริมสิ่งที่เป็นความแตกต่างระหว่างการย้ำนโยบายและย้ำคุ้มค่า ? เท่าที่ฉันเข้าใจในการวนซ้ำคุณค่าคุณใช้สมการ Bellman เพื่อแก้ปัญหาสำหรับนโยบายที่ดีที่สุดในขณะที่ในการวนซ้ำนโยบายคุณสุ่มเลือกนโยบายπและหารางวัลของนโยบายนั้น ข้อสงสัยของฉันคือหากคุณเลือกนโยบายแบบสุ่มπใน PI จะรับประกันได้อย่างไรว่าจะเป็นนโยบายที่ดีที่สุดแม้ว่าเราจะเลือกนโยบายแบบสุ่มหลายนโยบายก็ตาม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.