ทำไมอัตราคิดลดในอัลกอริทึม REINFORCE ปรากฏสองครั้ง
ฉันกำลังอ่านหนังสือเสริมการเรียนรู้: บทนำโดย Richard S. Sutton และ Andrew G. Barto (ฉบับร่างสมบูรณ์, 5 พฤศจิกายน 2017) บนหน้า 271 รหัสหลอกสำหรับวิธีการนโยบายไล่ระดับสี Monte-Carlo หลักการจะแสดง ดูโค้ดหลอกนี้ฉันไม่เข้าใจว่าทำไมมันดูเหมือนว่าอัตราส่วนลดปรากฏขึ้น 2 ครั้งหนึ่งครั้งในสถานะอัพเดตและครั้งที่สองภายในผลตอบแทน [ดูรูปด้านล่าง] ดูเหมือนว่าการคืนค่าสำหรับขั้นตอนหลังจากขั้นตอนที่ 1 เป็นเพียงการตัดทอนการคืนค่าของขั้นตอนแรก นอกจากนี้หากคุณดูเพียงหนึ่งหน้าข้างบนในหนังสือคุณจะพบสมการที่มีอัตราส่วนลดเพียง 1 รายการ (หนึ่งในผลตอบแทน) ทำไมรหัสเทียมดูไม่เหมือนกัน? ฉันเดาว่าฉันเข้าใจผิดบางสิ่ง: θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt).(13.6)(13.6)θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt). {\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| …