ในบทความแนะนำ DQN " Playing Atari with Deep Reinforcement Learning " กล่าวถึง:
โปรดทราบว่าเมื่อการเรียนรู้ด้วยประสบการณ์การเล่นซ้ำมีความจำเป็นต้องเรียนรู้นอกนโยบาย (เนื่องจากพารามิเตอร์ปัจจุบันของเราแตกต่างจากที่ใช้ในการสร้างตัวอย่าง) ซึ่งเป็นตัวกระตุ้นให้เกิดการเลือก Q-learning
ฉันไม่เข้าใจความหมายของมัน จะเป็นอย่างไรถ้าเราใช้ SARSA และจดจำการกระทำa'
ที่เราต้องทำในs'
ความทรงจำของเราจากนั้นสุ่มตัวอย่างจากมันแล้วอัปเดต Q เหมือนที่เราทำใน DQN และวิธีการที่นักวิจารณ์ (A3C สำหรับเฉพาะ) สามารถใช้การเล่นซ้ำประสบการณ์ได้หรือไม่ ถ้าไม่ทำไม
(s, a, r, s')
และดึงประสบการณ์นี้ออกมาเพื่อเล่นซ้ำ; ตอนนี้สมมติว่านโยบายปัจจุบันของฉันบอกว่าคุณควรทำa'
ต่อs'
ไปจากนั้นฉันQ(s, a)
จะทำเครื่องหมายว่าควรr + Q(s', a')
ทำและลาดลงอย่างช้าๆ ฉันคิดว่าฉันกำลังมีประสบการณ์การเล่นซ้ำตามนโยบาย มีปัญหากับกระบวนการหรือไม่?