เหตุใดการเรียนรู้แบบ Q ถึงไม่รวมกันเมื่อใช้การประมาณฟังก์ชั่น
อัลกอริทึม Q-learning แบบมีตารางรับประกันว่าจะหาสิ่งที่ดีที่สุด QQQ ฟังก์ชั่น Q∗Q∗Q^*ให้เงื่อนไขต่อไปนี้ (เงื่อนไขRobbins-Monro ) เกี่ยวกับอัตราการเรียนรู้เป็นที่พอใจ ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty ที่ไหน αt(s,a)αt(s,a)\alpha_t(s, a) หมายถึงอัตราการเรียนรู้ที่ใช้เมื่ออัปเดต QQQ ค่าที่เกี่ยวข้องกับรัฐ sss และการกระทำ aaa ในเวลาขั้นตอน tttที่ไหน 0≤αt(s,a)<10≤αt(s,a)<10 \leq \alpha_t(s, a) < 1 จะถือว่าเป็นจริงสำหรับทุกรัฐ sss และการกระทำ aaa. เห็นได้ชัดว่า 0≤αt(s,a)<10≤αt(s,a)<10 \leq \alpha_t(s, a) < 1เพื่อให้ทั้งสองเงื่อนไขเป็นจริงคู่การกระทำของรัฐทุกคนจะต้องเข้าชมอย่างไม่สิ้นสุดบ่อยครั้ง: นี่คือที่ระบุไว้ในหนังสือเสริมการเรียนรู้: การแนะนำนอกเหนือจากข้อเท็จจริงที่ว่านี้ควรเป็นที่รู้จักอย่างกว้างขวางและเป็นเหตุผล เบื้องหลังการใช้งานของϵϵ\epsilon- …