2
เหตุใดพื้นฐานจึงมีเงื่อนไขตามสถานะในบางช่วงเวลาที่เป็นกลาง
ในหุ่นยนต์เทคนิคการเรียนรู้การเสริมแรงจะใช้สำหรับการค้นหารูปแบบการควบคุมสำหรับหุ่นยนต์ น่าเสียดายที่วิธีการไล่ระดับนโยบายส่วนใหญ่มีความเอนเอียงทางสถิติซึ่งสามารถนำหุ่นยนต์ไปสู่สถานการณ์ที่ไม่ปลอดภัยดูหน้า 2 ในJan Peters และ Stefan Schaal: การเสริมแรงการเรียนรู้ทักษะยนต์ด้วยการไล่ระดับนโยบาย, 2008 ด้วยการเรียนรู้ดั้งเดิมของมอเตอร์มันเป็นไปได้ที่จะเอาชนะปัญหานี้ได้เนื่องจากการปรับพารามิเตอร์พารามิเตอร์ gradient ของนโยบายนำขั้นตอนการเรียนรู้ไปสู่เป้าหมาย เครื่องหมายคำพูด:“ ถ้าการประมาณการไล่ระดับสีไม่เป็นกลางและอัตราการเรียนรู้เป็นไปตามผลรวม (a) = 0 กระบวนการเรียนรู้นั้นรับประกันว่าจะมาบรรจบกันอย่างน้อยที่สุดในระดับท้องถิ่น [... ] ดังนั้นเราต้องประเมินการไล่ระดับนโยบายจากข้อมูลที่สร้างขึ้นเท่านั้น ระหว่างการทำงานของงาน ” (หน้า 4 ของกระดาษเดียวกัน) ในการบ้านสำหรับชั้นเรียน Berkeley RLปัญหา 1 มันขอให้คุณแสดงให้เห็นว่าการไล่ระดับนโยบายยังคงเป็นกลางหากการลบล้างพื้นฐานเป็นหน้าที่ของรัฐที่ประทับเวลา t ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 ฉันกำลังดิ้นรนผ่านขั้นตอนแรกของการพิสูจน์เช่นนี้ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ความคิดเริ่มต้นของฉันคือการใช้กฎแห่งความคาดหวังทั้งหมดเพื่อทำให้ความคาดหวังของเงื่อนไข b (st) บน T …