2
ทำไมอัลกอริทึมการวนซ้ำของนโยบายจึงรวมเข้ากับนโยบายและฟังก์ชันค่าที่เหมาะสมที่สุด
ผมอ่านแอนดรูอึ้งของเอกสารประกอบการบรรยายเกี่ยวกับการเรียนรู้การเสริมแรงและผมพยายามที่จะเข้าใจว่าทำไมย้ำนโยบายการแปรสภาพการทำงานที่ค่าที่ดีที่สุดและนโยบายที่เหมาะสม *V∗V∗V^*π∗π∗\pi^* การทำซ้ำนโยบายการเรียกคืนคือ: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := …