ในหุ่นยนต์เทคนิคการเรียนรู้การเสริมแรงจะใช้สำหรับการค้นหารูปแบบการควบคุมสำหรับหุ่นยนต์ น่าเสียดายที่วิธีการไล่ระดับนโยบายส่วนใหญ่มีความเอนเอียงทางสถิติซึ่งสามารถนำหุ่นยนต์ไปสู่สถานการณ์ที่ไม่ปลอดภัยดูหน้า 2 ในJan Peters และ Stefan Schaal: การเสริมแรงการเรียนรู้ทักษะยนต์ด้วยการไล่ระดับนโยบาย, 2008
ด้วยการเรียนรู้ดั้งเดิมของมอเตอร์มันเป็นไปได้ที่จะเอาชนะปัญหานี้ได้เนื่องจากการปรับพารามิเตอร์พารามิเตอร์ gradient ของนโยบายนำขั้นตอนการเรียนรู้ไปสู่เป้าหมาย
เครื่องหมายคำพูด:“ ถ้าการประมาณการไล่ระดับสีไม่เป็นกลางและอัตราการเรียนรู้เป็นไปตามผลรวม (a) = 0 กระบวนการเรียนรู้นั้นรับประกันว่าจะมาบรรจบกันอย่างน้อยที่สุดในระดับท้องถิ่น [... ] ดังนั้นเราต้องประเมินการไล่ระดับนโยบายจากข้อมูลที่สร้างขึ้นเท่านั้น ระหว่างการทำงานของงาน ” (หน้า 4 ของกระดาษเดียวกัน)
ในการบ้านสำหรับชั้นเรียน Berkeley RLปัญหา 1 มันขอให้คุณแสดงให้เห็นว่าการไล่ระดับนโยบายยังคงเป็นกลางหากการลบล้างพื้นฐานเป็นหน้าที่ของรัฐที่ประทับเวลา t
ฉันกำลังดิ้นรนผ่านขั้นตอนแรกของการพิสูจน์เช่นนี้ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ความคิดเริ่มต้นของฉันคือการใช้กฎแห่งความคาดหวังทั้งหมดเพื่อทำให้ความคาดหวังของเงื่อนไข b (st) บน T แต่ฉันไม่แน่ใจ ขอบคุณล่วงหน้า :)