การเขียนโปรแกรม value-iteration

อะไรคือความแตกต่างระหว่างการวนซ้ำมูลค่าและการวนซ้ำตามนโยบาย?

ในการเรียนรู้เสริมสิ่งที่เป็นความแตกต่างระหว่างการย้ำนโยบายและย้ำคุ้มค่า ? เท่าที่ฉันเข้าใจในการวนซ้ำคุณค่าคุณใช้สมการ Bellman เพื่อแก้ปัญหาสำหรับนโยบายที่ดีที่สุดในขณะที่ในการวนซ้ำนโยบายคุณสุ่มเลือกนโยบายπและหารางวัลของนโยบายนั้น ข้อสงสัยของฉันคือหากคุณเลือกนโยบายแบบสุ่มπใน PI จะรับประกันได้อย่างไรว่าจะเป็นนโยบายที่ดีที่สุดแม้ว่าเราจะเลือกนโยบายแบบสุ่มหลายนโยบายก็ตาม

94 machine-learning reinforcement-learning markov-models value-iteration

คำถามติดแท็ก value-iteration