คุณพูดถูกแล้วฟังก์ชั่นให้คุณค่าแก่รัฐและให้คุณค่าของการกระทำในสถานะ (ตามนโยบายที่กำหนด ) ฉันพบคำอธิบายที่ชัดเจนที่สุดของ Q-learning และวิธีการทำงานในหนังสือ "Machine Learning" (1997), ch. ของ Tom Tomell 13 ซึ่งสามารถดาวน์โหลดได้ หมายถึงผลรวมของอนุกรมอนันต์ แต่ไม่สำคัญที่นี่ สิ่งที่สำคัญคือฟังก์ชันหมายถึงVQπVQ
Q(s,a)=r(s,a)+γV∗(δ(s,a))
โดยที่ V * เป็นค่าที่ดีที่สุดของรัฐถ้าคุณสามารถทำตามนโยบายที่เหมาะสมซึ่งคุณ ไม่ทราบ อย่างไรก็ตามมันมีลักษณะที่ดีในแง่ของ
คำนวณทำได้โดยแทนที่ในสมการแรกเพื่อให้
Q
V∗(s)=maxa′Q(s,a′)
QV∗Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
สิ่งนี้อาจดูเป็นการเรียกซ้ำที่แปลก ๆ ในตอนแรกเนื่องจากมันแสดงค่า Q ของการกระทำในสถานะปัจจุบันในแง่ของค่า Q ที่ดีที่สุดของสถานะตัวตายตัวแทนแต่มันก็สมเหตุสมผลเมื่อคุณดูที่กระบวนการสำรองข้อมูลใช้: การสำรวจ กระบวนการหยุดเมื่อถึงสถานะเป้าหมายและรวบรวมรางวัลซึ่งกลายเป็นค่า Q ของการเปลี่ยนแปลงครั้งสุดท้าย ขณะนี้ในตอนการฝึกอบรมที่ตามมาเมื่อกระบวนการสำรวจมาถึงสถานะก่อนหน้านั้นกระบวนการสำรองข้อมูลใช้ความเท่าเทียมกันด้านบนเพื่ออัปเดตค่า Q ปัจจุบันของสถานะผู้บุกเบิก ครั้งต่อไปของมันผู้มาเยี่ยมชมก่อนหน้านั้นจะได้รับการอัปเดตค่า Q ของรัฐและตามลำดับ (หนังสือของ Mitchell อธิบายวิธีที่มีประสิทธิภาพมากขึ้นในการทำสิ่งนี้โดยการจัดเก็บการคำนวณทั้งหมดและเล่นซ้ำในภายหลัง) ให้ทุกรัฐมีการเข้าชมอนันต์บ่อยครั้งกระบวนการนี้ในที่สุดก็คำนวณ Q ที่ดีที่สุด
บางครั้งคุณจะเห็นอัตราการเรียนรู้ถูกนำไปใช้เพื่อควบคุมจำนวนการอัพเดท Q จริง:
ให้สังเกตุในตอนนี้ว่าการอัพเดทค่า Q นั้นขึ้นอยู่กับค่า Q ปัจจุบัน หนังสือของมิทเชลยังอธิบายถึงสาเหตุและเหตุผลที่คุณต้องการ : สำหรับ MDP ที่สุ่ม หากไม่มีทุกครั้งที่มีรัฐพยายามจับคู่แอ็คชั่นจะมีรางวัลที่แตกต่างกันดังนั้นฟังก์ชั่น Q ^ จะเด้งไปทั่วสถานที่และไม่มาบรรจบกัน อยู่ที่นั่นเพื่อให้เป็นความรู้ใหม่ได้รับการยอมรับเพียงบางส่วนαQ(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
ααααถูกตั้งค่าสูงเพื่อให้กระแส (ส่วนใหญ่สุ่มค่า) ของ Q มีอิทธิพลน้อยกว่า ลดลงเมื่อการฝึกอบรมดำเนินไปเรื่อย ๆ ดังนั้นการอัพเดทใหม่จะมีอิทธิพลน้อยลงเรื่อย ๆ และตอนนี้การเรียนรู้ Q จะมาบรรจบกันα