1
ความสัมพันธ์ระหว่าง Q-learning และวิธีการไล่ระดับสีนโยบายคืออะไร?
เท่าที่ฉันเข้าใจการเรียนรู้ Q- และการไล่ระดับสีนโยบาย (PG) เป็นสองแนวทางหลักที่ใช้ในการแก้ปัญหา RL ในขณะที่การเรียนรู้ Q มีวัตถุประสงค์เพื่อทำนายรางวัลของการกระทำบางอย่างที่เกิดขึ้นในบางสถานะการไล่ระดับสีของนโยบายจะทำนายการกระทำโดยตรง อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG) ความแตกต่างในวิธีการสูญเสียจะแพร่กระจายกลับ?