SARSA และ Q Learning เป็นทั้งอัลกอริทึมการเรียนรู้เสริมที่ทำงานในลักษณะเดียวกัน ความแตกต่างที่โดดเด่นที่สุดคือ SARSA อยู่ในนโยบายขณะที่ Q Learning ปิดนโยบาย กฎการอัพเดทมีดังนี้:
การเรียนรู้ Q:
ซาร์ซา:
โดยที่และเป็นสถานะการกระทำและรางวัล ณ ขั้นตอนและเป็นปัจจัยลดราคา
พวกเขาส่วนใหญ่มีลักษณะเดียวกันยกเว้นใน SARSA เราดำเนินการจริงและในการเรียนรู้ Q เราดำเนินการด้วยรางวัลสูงสุด
มีการตั้งค่าทางทฤษฎีหรือภาคปฏิบัติที่ควรเลือกอย่างใดอย่างหนึ่งมากกว่าอีกอันหนึ่งหรือไม่? ฉันเห็นได้ว่าการใช้ Q สูงสุดในการเรียนรู้นั้นมีค่าใช้จ่ายสูงและมากขึ้นเรื่อย ๆ ในพื้นที่ปฏิบัติการต่อเนื่อง แต่มีอะไรอีกบ้าง?