ความสัมพันธ์ระหว่าง Q-learning และวิธีการไล่ระดับสีนโยบายคืออะไร?


21

เท่าที่ฉันเข้าใจการเรียนรู้ Q- และการไล่ระดับสีนโยบาย (PG) เป็นสองแนวทางหลักที่ใช้ในการแก้ปัญหา RL ในขณะที่การเรียนรู้ Q มีวัตถุประสงค์เพื่อทำนายรางวัลของการกระทำบางอย่างที่เกิดขึ้นในบางสถานะการไล่ระดับสีของนโยบายจะทำนายการกระทำโดยตรง

อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG) ความแตกต่างในวิธีการสูญเสียจะแพร่กระจายกลับ?

คำตอบ:


20

อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG)

ทั้งสองวิธีได้รับการขับเคลื่อนทางทฤษฎีโดยการสร้างกระบวนการตัดสินใจของมาร์คอฟและด้วยเหตุนี้จึงใช้สัญกรณ์และแนวคิดที่คล้ายกัน นอกจากนี้ในสภาพแวดล้อมที่แก้ไขได้ง่ายคุณควรคาดหวังว่าทั้งสองวิธีจะให้ผลลัพธ์ที่เหมือนกัน - หรืออย่างน้อยที่สุด - นโยบายที่ดีที่สุด

อย่างไรก็ตามพวกเขาแตกต่างกันจริง ๆ ภายใน ความแตกต่างพื้นฐานที่สุดระหว่างวิธีการคือวิธีที่พวกเขาเข้าใกล้การเลือกการกระทำทั้งในขณะที่การเรียนรู้และเป็นผลลัพธ์ (นโยบายที่เรียนรู้) ใน Q-learning เป้าหมายคือการเรียนรู้การกระทำที่กำหนดขึ้นจากการกระทำที่ไม่ต่อเนื่องโดยการหาค่าสูงสุด ด้วยการไล่ระดับสีตามนโยบายและการค้นหานโยบายโดยตรงอื่น ๆ เป้าหมายคือการเรียนรู้แผนที่จากรัฐสู่การปฏิบัติซึ่งสามารถสุ่มและทำงานในพื้นที่ปฏิบัติการต่อเนื่อง

ดังนั้นวิธีการไล่ระดับนโยบายสามารถแก้ปัญหาที่วิธีการตามค่าไม่สามารถ:

  • พื้นที่ดำเนินการขนาดใหญ่และต่อเนื่อง อย่างไรก็ตามด้วยวิธีการอิงตามมูลค่าสิ่งนี้ยังสามารถประมาณได้ด้วยการแยกวิเคราะห์ - และนี่ไม่ใช่ทางเลือกที่ไม่ดีเนื่องจากฟังก์ชันการแมปในการไล่ระดับนโยบายจะต้องเป็นผู้ประมาณในทางปฏิบัติ

  • นโยบายสุ่ม วิธีการตามค่าไม่สามารถแก้ไขสภาพแวดล้อมที่นโยบายที่ดีที่สุดคือสุ่มต้องมีความน่าจะเป็นที่เฉพาะเจาะจงเช่น Scissor / Paper / Stone นั่นเป็นเพราะไม่มีพารามิเตอร์ที่สามารถฝึกหัดได้ใน Q-learning ที่ควบคุมความน่าจะเป็นของการดำเนินการการกำหนดปัญหาในการเรียนรู้ TD ถือว่าเป็นตัวแทนที่กำหนดขึ้นได้ดีที่สุด

อย่างไรก็ตามวิธีการตามค่าเช่น Q-learning มีข้อดีบางอย่างเช่นกัน:

  • พี(a|s,θ)θ

  • ความเร็ว. วิธีการเรียนรู้ TD ที่ bootstrap มักจะเร็วกว่าการเรียนรู้นโยบายมากกว่าวิธีที่ต้องสุ่มตัวอย่างจากสภาพแวดล้อมเพื่อประเมินความก้าวหน้า

มีสาเหตุอื่น ๆ ที่คุณอาจสนใจที่จะใช้วิธีใดวิธีหนึ่ง:

  • คุณอาจต้องการทราบผลตอบแทนที่คาดการณ์ไว้ในขณะที่กระบวนการกำลังทำงานอยู่เพื่อช่วยกระบวนการวางแผนอื่น ๆ ที่เกี่ยวข้องกับตัวแทน

  • การแทนค่าสถานะของปัญหาจะทำให้ตัวเองง่ายขึ้นสำหรับฟังก์ชันค่าหรือฟังก์ชันนโยบาย ฟังก์ชั่นคุ้มค่าจะเปิดออกเพื่อมีความสัมพันธ์ที่ง่ายมากที่จะรัฐและฟังก์ชั่นนโยบายที่ซับซ้อนมากและยากที่จะเรียนรู้หรือในทางกลับกัน

นักแก้ปัญหา RL ที่ล้ำสมัยบางคนใช้ทั้งสองวิธีร่วมกันเช่น Actor-Critic สิ่งนี้รวมจุดแข็งของมูลค่าและวิธีการไล่ระดับนโยบาย


คุณหมายถึงอะไรเมื่อคุณพูดว่านักวิจารณ์ที่รวมความแข็งแกร่งของทั้งสองวิธี? เพื่อความเข้าใจของฉันนักแสดงจะประเมินการกระทำที่ดีที่สุดที่จะยึดตามรัฐและนักวิจารณ์ประเมินคุณค่าของรัฐนั้นจากนั้นให้รางวัลแก่นักแสดง การปฏิบัติต่อพวกเขาในฐานะ "หน่วยนโยบาย" เดียวยังคงดูเหมือนว่านโยบายไล่ระดับสีให้ฉัน ทำไมสิ่งนี้ถึงชอบการเรียนรู้แบบ Q?
Gulzar

1
@Guizar: นักวิจารณ์เรียนรู้โดยใช้วิธีการตามมูลค่า (เช่น Q-learning) ดังนั้นโดยรวมนักวิจารณ์ก็คือการรวมกันของวิธีค่าและวิธีการไล่ระดับนโยบายและมันได้รับประโยชน์จากการรวมกัน การปรับปรุงที่โดดเด่นอย่างหนึ่งของ "วานิลลา" PG คือการไล่ระดับสีสามารถประเมินได้ในแต่ละขั้นตอนแทนที่จะเป็นตอนท้ายของแต่ละตอน หากคุณกำลังมองหาคำตอบโดยละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้คุณควรถามคำถามในเว็บไซต์
Neil Slater

@ Guizar: จริง ๆ แล้วเกา (เช่น Q-learning) ในขณะที่ฉันสับสนระหว่างข้อได้เปรียบของนักแสดงนักวิจารณ์ (ซึ่งปรับพื้นฐานให้เป็นไปตามค่าการกระทำ) และนักวิจารณ์ซึ่งมักจะเป็นค่าของรัฐที่เรียบง่าย อย่างไรก็ตามส่วนที่เหลือคำอธิบายของฉันยังคงเหมือนเดิมนักวิจารณ์มักได้รับการปรับปรุงโดยใช้วิธีการคิดมูลค่าตามตัวอักษรซึ่งเป็นตัวอย่างการเรียนรู้ Q
Neil Slater
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.