อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG)
ทั้งสองวิธีได้รับการขับเคลื่อนทางทฤษฎีโดยการสร้างกระบวนการตัดสินใจของมาร์คอฟและด้วยเหตุนี้จึงใช้สัญกรณ์และแนวคิดที่คล้ายกัน นอกจากนี้ในสภาพแวดล้อมที่แก้ไขได้ง่ายคุณควรคาดหวังว่าทั้งสองวิธีจะให้ผลลัพธ์ที่เหมือนกัน - หรืออย่างน้อยที่สุด - นโยบายที่ดีที่สุด
อย่างไรก็ตามพวกเขาแตกต่างกันจริง ๆ ภายใน ความแตกต่างพื้นฐานที่สุดระหว่างวิธีการคือวิธีที่พวกเขาเข้าใกล้การเลือกการกระทำทั้งในขณะที่การเรียนรู้และเป็นผลลัพธ์ (นโยบายที่เรียนรู้) ใน Q-learning เป้าหมายคือการเรียนรู้การกระทำที่กำหนดขึ้นจากการกระทำที่ไม่ต่อเนื่องโดยการหาค่าสูงสุด ด้วยการไล่ระดับสีตามนโยบายและการค้นหานโยบายโดยตรงอื่น ๆ เป้าหมายคือการเรียนรู้แผนที่จากรัฐสู่การปฏิบัติซึ่งสามารถสุ่มและทำงานในพื้นที่ปฏิบัติการต่อเนื่อง
ดังนั้นวิธีการไล่ระดับนโยบายสามารถแก้ปัญหาที่วิธีการตามค่าไม่สามารถ:
พื้นที่ดำเนินการขนาดใหญ่และต่อเนื่อง อย่างไรก็ตามด้วยวิธีการอิงตามมูลค่าสิ่งนี้ยังสามารถประมาณได้ด้วยการแยกวิเคราะห์ - และนี่ไม่ใช่ทางเลือกที่ไม่ดีเนื่องจากฟังก์ชันการแมปในการไล่ระดับนโยบายจะต้องเป็นผู้ประมาณในทางปฏิบัติ
นโยบายสุ่ม วิธีการตามค่าไม่สามารถแก้ไขสภาพแวดล้อมที่นโยบายที่ดีที่สุดคือสุ่มต้องมีความน่าจะเป็นที่เฉพาะเจาะจงเช่น Scissor / Paper / Stone นั่นเป็นเพราะไม่มีพารามิเตอร์ที่สามารถฝึกหัดได้ใน Q-learning ที่ควบคุมความน่าจะเป็นของการดำเนินการการกำหนดปัญหาในการเรียนรู้ TD ถือว่าเป็นตัวแทนที่กำหนดขึ้นได้ดีที่สุด
อย่างไรก็ตามวิธีการตามค่าเช่น Q-learning มีข้อดีบางอย่างเช่นกัน:
p ( a ∣ s , θ )θ
ความเร็ว. วิธีการเรียนรู้ TD ที่ bootstrap มักจะเร็วกว่าการเรียนรู้นโยบายมากกว่าวิธีที่ต้องสุ่มตัวอย่างจากสภาพแวดล้อมเพื่อประเมินความก้าวหน้า
มีสาเหตุอื่น ๆ ที่คุณอาจสนใจที่จะใช้วิธีใดวิธีหนึ่ง:
คุณอาจต้องการทราบผลตอบแทนที่คาดการณ์ไว้ในขณะที่กระบวนการกำลังทำงานอยู่เพื่อช่วยกระบวนการวางแผนอื่น ๆ ที่เกี่ยวข้องกับตัวแทน
การแทนค่าสถานะของปัญหาจะทำให้ตัวเองง่ายขึ้นสำหรับฟังก์ชันค่าหรือฟังก์ชันนโยบาย ฟังก์ชั่นคุ้มค่าจะเปิดออกเพื่อมีความสัมพันธ์ที่ง่ายมากที่จะรัฐและฟังก์ชั่นนโยบายที่ซับซ้อนมากและยากที่จะเรียนรู้หรือในทางกลับกัน
นักแก้ปัญหา RL ที่ล้ำสมัยบางคนใช้ทั้งสองวิธีร่วมกันเช่น Actor-Critic สิ่งนี้รวมจุดแข็งของมูลค่าและวิธีการไล่ระดับนโยบาย