อะไรคือความแตกต่างระหว่างการวนซ้ำมูลค่าและการวนซ้ำตามนโยบาย?

Question 1

ในการเรียนรู้เสริมสิ่งที่เป็นความแตกต่างระหว่างการย้ำนโยบายและย้ำคุ้มค่า ?

เท่าที่ฉันเข้าใจในการวนซ้ำคุณค่าคุณใช้สมการ Bellman เพื่อแก้ปัญหาสำหรับนโยบายที่ดีที่สุดในขณะที่ในการวนซ้ำนโยบายคุณสุ่มเลือกนโยบายπและหารางวัลของนโยบายนั้น

ข้อสงสัยของฉันคือหากคุณเลือกนโยบายแบบสุ่มπใน PI จะรับประกันได้อย่างไรว่าจะเป็นนโยบายที่ดีที่สุดแม้ว่าเราจะเลือกนโยบายแบบสุ่มหลายนโยบายก็ตาม

Question 2

ลองดูพวกเขาเคียงข้างกัน ส่วนสำคัญสำหรับการเปรียบเทียบจะถูกเน้น ตัวเลขจากซัตตันและ Barto หนังสือ: เสริมสร้างการเรียนรู้: บทนำ

ประเด็นสำคัญ:

การวนซ้ำนโยบายรวมถึง: การประเมินนโยบาย + การปรับปรุงนโยบายและทั้งสองจะทำซ้ำซ้ำ ๆ จนกว่านโยบายจะบรรจบกัน
การวนซ้ำมูลค่าประกอบด้วย: การค้นหาฟังก์ชันค่าที่เหมาะสมที่สุด + การแยกนโยบายหนึ่งรายการ ไม่มีการทำซ้ำของทั้งสองเพราะเมื่อฟังก์ชันค่าเหมาะสมที่สุดแล้วนโยบายที่ไม่เหมาะสมก็ควรจะเหมาะสมที่สุดด้วย
นอกจากนี้การค้นหาฟังก์ชันค่าที่เหมาะสมยังสามารถมองได้ว่าเป็นการผสมผสานระหว่างการปรับปรุงนโยบาย (เนื่องจากสูงสุด) และการประเมินนโยบายที่ถูกตัดทอน (การกำหนด v_ (s) ใหม่หลังจากการกวาดล้างสถานะทั้งหมดเพียงครั้งเดียวโดยไม่คำนึงถึงคอนเวอร์เจนซ์)
อัลกอริทึมสำหรับการประเมินนโยบายและฟังก์ชันค่าที่เหมาะสมมีความคล้ายคลึงกันมากยกเว้นการดำเนินการสูงสุด (ตามที่เน้นไว้)
ในทำนองเดียวกันขั้นตอนสำคัญในการปรับปรุงนโยบายและการสกัดนโยบายจะเหมือนกันยกเว้นในอดีตเกี่ยวข้องกับการตรวจสอบเสถียรภาพ

จากประสบการณ์ของฉันการทำซ้ำนโยบายเร็วกว่าการวนซ้ำตามมูลค่าเนื่องจากนโยบายจะมาบรรจบกันได้เร็วกว่าฟังก์ชันค่า ฉันจำได้ว่ามีอธิบายไว้ในหนังสือด้วย

ฉันเดาว่าความสับสนส่วนใหญ่มาจากคำศัพท์ที่ค่อนข้างคล้ายกันเหล่านี้ซึ่งทำให้ฉันสับสนมาก่อน

Question 3

ในอัลกอริธึมการวนซ้ำนโยบายคุณเริ่มต้นด้วยนโยบายแบบสุ่มจากนั้นค้นหาฟังก์ชันค่าของนโยบายนั้น (ขั้นตอนการประเมินนโยบาย) จากนั้นค้นหานโยบายใหม่ (ปรับปรุง) ตามฟังก์ชันค่าก่อนหน้าและอื่น ๆ ในกระบวนการนี้นโยบายแต่ละข้อได้รับการรับรองว่าจะได้รับการปรับปรุงอย่างเข้มงวดจากนโยบายก่อนหน้านี้ (เว้นแต่จะได้รับการปรับปรุงให้เหมาะสมที่สุดแล้ว) ได้รับนโยบายการทำงานด้านความคุ้มค่าสามารถรับใช้ผู้ประกอบการยาม

ในการวนซ้ำค่าคุณเริ่มต้นด้วยฟังก์ชันค่าสุ่มจากนั้นค้นหาฟังก์ชันค่าใหม่ (ปรับปรุง) ในกระบวนการวนซ้ำจนกว่าจะถึงฟังก์ชันค่าที่เหมาะสมที่สุด โปรดสังเกตว่าคุณสามารถรับนโยบายที่เหมาะสมที่สุดได้อย่างง่ายดายจากฟังก์ชันค่าที่เหมาะสมที่สุด กระบวนการนี้ขึ้นอยู่กับตัวดำเนินการ Bellman การเพิ่มประสิทธิภาพ

ในความรู้สึกบางขั้นตอนวิธีการทั้งสองร่วมกันหลักการทำงานที่เหมือนกันและพวกเขาสามารถมองเห็นเป็นสองกรณีของการย้ำนโยบายทั่วไป อย่างไรก็ตามตัวดำเนินการ Bellman การเพิ่มประสิทธิภาพมีตัวดำเนินการสูงสุดซึ่งไม่ใช่เชิงเส้นดังนั้นจึงมีคุณสมบัติที่แตกต่างกัน นอกจากนี้ยังสามารถใช้วิธีการผสมระหว่างการวนซ้ำมูลค่าบริสุทธิ์และการวนซ้ำตามนโยบายที่บริสุทธิ์

Question 4

ความแตกต่างพื้นฐานคือ -

ในการวนซ้ำนโยบาย - คุณสุ่มเลือกนโยบายและค้นหาฟังก์ชันค่าที่เกี่ยวข้องจากนั้นค้นหานโยบายใหม่ (ปรับปรุง) ตามฟังก์ชันค่าก่อนหน้าและสิ่งนี้จะนำไปสู่นโยบายที่เหมาะสมที่สุด

ในการวนซ้ำมูลค่า - คุณสุ่มเลือกฟังก์ชันค่าจากนั้นค้นหาฟังก์ชันค่าใหม่ (ปรับปรุง) ในกระบวนการวนซ้ำจนกว่าจะถึงฟังก์ชันค่าที่เหมาะสมจากนั้นจึงได้รับนโยบายที่เหมาะสมที่สุดจากฟังก์ชันค่าที่เหมาะสมนั้น

การทำซ้ำนโยบายทำงานบนหลักการของ "การประเมินนโยบาย -> การปรับปรุงนโยบาย"

การทำซ้ำมูลค่าทำงานบนหลักการของ“ ฟังก์ชันค่าที่เหมาะสมที่สุด —-> นโยบายที่เหมาะสมที่สุด”

Question 5

เท่าที่ฉันกังวลตรงกันข้ามกับความคิดของ @zyxue โดยทั่วไป VI นั้นเร็วกว่า PI มาก

เหตุผลนั้นตรงไปตรงมามากอย่างที่คุณทราบแล้ว Bellman Equation ใช้สำหรับการแก้ฟังก์ชันค่าสำหรับนโยบายที่กำหนด เนื่องจากเราสามารถแก้ฟังก์ชันค่าสำหรับนโยบายที่เหมาะสมได้โดยตรงการแก้ฟังก์ชันค่าสำหรับนโยบายปัจจุบันจึงเป็นการเสียเวลาอย่างเห็นได้ชัด

สำหรับคำถามของคุณเกี่ยวกับการบรรจบกันของ PI ฉันคิดว่าคุณอาจมองข้ามความจริงที่ว่าหากคุณปรับปรุงกลยุทธ์สำหรับแต่ละสถานะข้อมูลคุณจะต้องปรับปรุงกลยุทธ์สำหรับทั้งเกม นี่เป็นเรื่องง่ายที่จะพิสูจน์หากคุณคุ้นเคยกับ Counterfactual Regret Minimization - ผลรวมของความเสียใจสำหรับแต่ละสถานะข้อมูลได้ก่อให้เกิดส่วนบนของความเสียใจโดยรวมดังนั้นการลดความเสียใจของแต่ละรัฐให้น้อยที่สุดจะช่วยลดความเสียใจโดยรวมซึ่ง นำไปสู่นโยบายที่เหมาะสมที่สุด