เว็บไซต์ปัญญาประดิษฐ์กำหนดการเรียนรู้นอกห้องเรียนและนอกนโยบายดังนี้
"ผู้เรียนนอกนโยบายเรียนรู้คุณค่าของนโยบายที่ดีที่สุดโดยไม่ขึ้นกับการกระทำของตัวแทน Q-learning เป็นผู้เรียนนอกนโยบายผู้เรียนตามนโยบายจะได้เรียนรู้คุณค่าของนโยบายที่ดำเนินการโดยตัวแทนรวมถึงขั้นตอนการสำรวจ ."
ฉันต้องการขอคำชี้แจงของคุณเกี่ยวกับเรื่องนี้เพราะพวกเขาดูเหมือนจะไม่สร้างความแตกต่างให้ฉัน คำจำกัดความทั้งสองดูเหมือนว่าเหมือนกัน สิ่งที่ฉันเข้าใจจริง ๆ คือการเรียนรู้โดยใช้แบบจำลองและแบบจำลองและฉันไม่รู้ว่าพวกเขามีส่วนเกี่ยวข้องกับสิ่งที่สงสัยหรือไม่
เป็นไปได้อย่างไรที่นโยบายที่ดีที่สุดจะได้รับการเรียนรู้อย่างอิสระจากการกระทำของตัวแทน นโยบายไม่ได้เรียนรู้เมื่อตัวแทนดำเนินการหรือไม่