คำถามติดแท็ก policy-gradients

1
ความสัมพันธ์ระหว่าง Q-learning และวิธีการไล่ระดับสีนโยบายคืออะไร?
เท่าที่ฉันเข้าใจการเรียนรู้ Q- และการไล่ระดับสีนโยบาย (PG) เป็นสองแนวทางหลักที่ใช้ในการแก้ปัญหา RL ในขณะที่การเรียนรู้ Q มีวัตถุประสงค์เพื่อทำนายรางวัลของการกระทำบางอย่างที่เกิดขึ้นในบางสถานะการไล่ระดับสีของนโยบายจะทำนายการกระทำโดยตรง อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG) ความแตกต่างในวิธีการสูญเสียจะแพร่กระจายกลับ?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.