ผมอ่านแอนดรูอึ้งของเอกสารประกอบการบรรยายเกี่ยวกับการเรียนรู้การเสริมแรงและผมพยายามที่จะเข้าใจว่าทำไมย้ำนโยบายการแปรสภาพการทำงานที่ค่าที่ดีที่สุดและนโยบายที่เหมาะสม *
การทำซ้ำนโยบายการเรียกคืนคือ:
ทำไมอัลกอริธึมโลภนำไปสู่นโยบายที่ดีที่สุดและฟังก์ชั่นค่าที่ดีที่สุด? (ฉันรู้ว่าอัลกอริทึมโลภไม่ได้รับประกันได้เสมอไปหรืออาจติดอยู่ในออพติม่าท้องถิ่น
นอกจากนี้สำหรับฉันแล้วการทำซ้ำนโยบายเป็นสิ่งที่คล้ายกับการรวมกลุ่มหรือการไล่ระดับสี ในการทำคลัสเตอร์เนื่องจากการตั้งค่าพารามิเตอร์ปัจจุบันเราปรับให้เหมาะสม คล้ายกับการไล่ระดับสีเพราะมันเลือกค่าที่ดูเหมือนว่าจะเพิ่มฟังก์ชั่นบางอย่าง สองวิธีนี้ไม่ได้รวมกันเป็นค่าสูงสุดที่เหมาะสมเสมอไปและฉันพยายามที่จะเข้าใจว่าอัลกอริทึมนี้แตกต่างจากวิธีก่อนหน้านี้ที่ฉันกล่าวถึงอย่างไร
นี่คือความคิดของฉัน:
สมมติว่าเราเริ่มต้นด้วยนโยบายจากนั้นหลังจากขั้นตอนแรกสำหรับนโยบายคงที่นั้นเรามี:
โดยที่ V ^ {(1)} เป็นฟังก์ชันค่าสำหรับการวนซ้ำครั้งแรก หลังจากนั้นขั้นตอนที่สองเราเลือกนโยบายใหม่บางเพื่อเพิ่มมูลค่าของ(s) ตอนนี้ด้วยนโยบายใหม่หากเราทำขั้นตอนที่สองของอัลกอริทึมความไม่เท่าเทียมกันต่อไปนี้จะเป็นจริง:
เนื่องจากเราเลือกในขั้นตอนที่สองเพื่อเพิ่มฟังก์ชั่นค่าในขั้นตอนก่อนหน้า (เช่นเพื่อปรับปรุงจนถึงตอนนี้มันชัดเจนว่าการเลือกสามารถเพิ่ม V ^ {(1)} ได้เท่านั้น เพราะ thats วิธีการที่เราเลือก . แต่ความสับสนของฉันมาในขั้นตอนการทำซ้ำเพราะเมื่อเราทำซ้ำและกลับไปขั้นตอนที่ 1 เราจริงเปลี่ยนสิ่งสมบูรณ์เพราะเราคำนวณใหม่สำหรับนโยบายใหม่\ซึ่งจะช่วยให้:
แต่มันไม่ใช่:
ซึ่งดูเหมือนว่าจะเป็นปัญหาเพราะได้รับการคัดเลือกในการปรับปรุงและไม่ใหม่นี้pi_2} โดยทั่วไปปัญหาคือรับประกันว่าจะปรับปรุงโดยทำแทน ของเมื่อฟังก์ชั่นค่าเป็นpi_1} แต่ในขั้นตอนการทำซ้ำเราเปลี่ยนเป็นแต่ฉันไม่เห็นวิธีที่รับประกันได้ว่าฟังก์ชันค่าปรับปรุงแบบ monotonically ในการทำซ้ำแต่ละครั้งเพราะถูกคำนวณเพื่อปรับปรุงฟังก์ชันค่าเมื่อ ฟังก์ชั่นค่ายังคงอยู่ที่แต่ขั้นตอนที่ 1 เปลี่ยนเป็น (ซึ่งไม่ดีเพราะ Iปรับปรุงฟังก์ชั่นค่าก่อนหน้านี้เท่านั้น)