ในบทความแนะนำ DQN " Playing Atari with Deep Reinforcement Learning " กล่าวถึง:
โปรดทราบว่าเมื่อการเรียนรู้ด้วยประสบการณ์การเล่นซ้ำมีความจำเป็นต้องเรียนรู้นอกนโยบาย (เนื่องจากพารามิเตอร์ปัจจุบันของเราแตกต่างจากที่ใช้ในการสร้างตัวอย่าง) ซึ่งเป็นตัวกระตุ้นให้เกิดการเลือก Q-learning
ฉันไม่เข้าใจความหมายของมัน จะเป็นอย่างไรถ้าเราใช้ SARSA และจดจำการกระทำa'ที่เราต้องทำในs'ความทรงจำของเราจากนั้นสุ่มตัวอย่างจากมันแล้วอัปเดต Q เหมือนที่เราทำใน DQN และวิธีการที่นักวิจารณ์ (A3C สำหรับเฉพาะ) สามารถใช้การเล่นซ้ำประสบการณ์ได้หรือไม่ ถ้าไม่ทำไม
(s, a, r, s')และดึงประสบการณ์นี้ออกมาเพื่อเล่นซ้ำ; ตอนนี้สมมติว่านโยบายปัจจุบันของฉันบอกว่าคุณควรทำa'ต่อs'ไปจากนั้นฉันQ(s, a)จะทำเครื่องหมายว่าควรr + Q(s', a')ทำและลาดลงอย่างช้าๆ ฉันคิดว่าฉันกำลังมีประสบการณ์การเล่นซ้ำตามนโยบาย มีปัญหากับกระบวนการหรือไม่?