เหตุใดจึงเลือกตัวอักษร Q ในชื่อของ Q-learning
ตัวอักษรส่วนใหญ่จะถูกเลือกเป็นตัวย่อเช่นหมายถึงนโยบายและหมายถึงคุณค่า แต่ฉันไม่คิดว่า Q เป็นคำย่อของคำใด ๆ
เหตุใดจึงเลือกตัวอักษร Q ในชื่อของ Q-learning
ตัวอักษรส่วนใหญ่จะถูกเลือกเป็นตัวย่อเช่นหมายถึงนโยบายและหมายถึงคุณค่า แต่ฉันไม่คิดว่า Q เป็นคำย่อของคำใด ๆ
คำตอบ:
ฉันขอโทษที่ทำให้ทุกคนผิดหวัง แต่ Q ไม่ยืนหยัดเพื่อสิ่งใด :)
Watkins ได้นำเสนอ Q-learning ในวิทยานิพนธ์ระดับปริญญาเอกของเขาในปี 1989 ดูที่หน้า 93 Q ในสมการในหน้านั้นได้รับการปรับปรุงด้วยวิธีบางอย่างในแต่ละขั้นตอน Q คือผลตอบแทนที่คาดหวังจากการกระทำในสถานะที่กำหนดดูคำจำกัดความของ Q ในหน้า 49 การกลับมาอยู่ในความหมายทางเศรษฐศาสตร์หรือทฤษฎีเกมเช่นความน่าจะเป็นของรางวัลลดความอ้วนไม่ใช่ศัพท์วิทยาศาสตร์คอมพิวเตอร์เช่นผลตอบแทนจากฟังก์ชั่น
สังเกตุว่าเขาใช้ P สำหรับความน่าจะเป็นและ R เป็นรางวัลได้อย่างไรเขาจึงคว้า Q สำหรับการกลับมา แค่นั้นแหละ. ไม่มีความหมายที่ลึกซึ้งยิ่งขึ้นสำหรับการเลือกจดหมาย Q
เหตุผลที่เรียกว่าการเรียนรู้แบบ Q-Learning นั้นเนื่องจากใช้ค่า Q เพื่อจัดทำแบบประเมิน กฎการเรียนรู้ตามปกติคือและควรชัดเจนว่าทำไมเรียกว่าการเรียนรู้ Q
แต่คำถามที่แท้จริงในมุมมองของฉันคือเหตุผลที่เรียกว่า Q-Learning แม้ว่าดูเหมือนจะไม่มีคำตอบที่น่าพอใจ แต่ลิงค์นี้ระบุว่าAndrew Bartoซึ่งเป็นหนึ่งในผู้ก่อตั้ง Modern Reinforcement Learning คิดว่าย่อมาจาก Quality ถูกเรียกเช่นนั้นเพราะมันแสดงให้เห็นว่าผลลัพธ์ของการดึงแขนนั้นดีแค่ไหน เป็น