เหตุใดพื้นฐานจึงมีเงื่อนไขตามสถานะในบางช่วงเวลาที่เป็นกลาง

ในหุ่นยนต์เทคนิคการเรียนรู้การเสริมแรงจะใช้สำหรับการค้นหารูปแบบการควบคุมสำหรับหุ่นยนต์ น่าเสียดายที่วิธีการไล่ระดับนโยบายส่วนใหญ่มีความเอนเอียงทางสถิติซึ่งสามารถนำหุ่นยนต์ไปสู่สถานการณ์ที่ไม่ปลอดภัยดูหน้า 2 ในJan Peters และ Stefan Schaal: การเสริมแรงการเรียนรู้ทักษะยนต์ด้วยการไล่ระดับนโยบาย, 2008

ด้วยการเรียนรู้ดั้งเดิมของมอเตอร์มันเป็นไปได้ที่จะเอาชนะปัญหานี้ได้เนื่องจากการปรับพารามิเตอร์พารามิเตอร์ gradient ของนโยบายนำขั้นตอนการเรียนรู้ไปสู่เป้าหมาย

เครื่องหมายคำพูด:“ ถ้าการประมาณการไล่ระดับสีไม่เป็นกลางและอัตราการเรียนรู้เป็นไปตามผลรวม (a) = 0 กระบวนการเรียนรู้นั้นรับประกันว่าจะมาบรรจบกันอย่างน้อยที่สุดในระดับท้องถิ่น [... ] ดังนั้นเราต้องประเมินการไล่ระดับนโยบายจากข้อมูลที่สร้างขึ้นเท่านั้น ระหว่างการทำงานของงาน ” (หน้า 4 ของกระดาษเดียวกัน)

ในการบ้านสำหรับชั้นเรียน Berkeley RLปัญหา 1 มันขอให้คุณแสดงให้เห็นว่าการไล่ระดับนโยบายยังคงเป็นกลางหากการลบล้างพื้นฐานเป็นหน้าที่ของรัฐที่ประทับเวลา t

▽_{θ} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p (s_{t}, a_{t})} [b (s_{t})] = 0

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0$

ฉันกำลังดิ้นรนผ่านขั้นตอนแรกของการพิสูจน์เช่นนี้ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ความคิดเริ่มต้นของฉันคือการใช้กฎแห่งความคาดหวังทั้งหมดเพื่อทำให้ความคาดหวังของเงื่อนไข b (st) บน T แต่ฉันไม่แน่ใจ ขอบคุณล่วงหน้า :)

_{เชื่อมโยงไปยัง png ดั้งเดิมของสมการ}

reinforcement-learning

— ลอร่าซี
แหล่งที่มา

ยินดีต้อนรับสู่ SE: AI! (ฉันใช้เสรีภาพในการแปลงสมการเป็น MathJax ต้นฉบับ. png เชื่อมโยงที่ด้านล่าง)

— DukeZhou

ไม่มีเวลามากพอที่จะเขียนสมการที่แน่นอนและจัดรูปแบบ (อาจจะภายหลังหากยังไม่ได้รับคำตอบ) ด้วย LaTeX แต่นี่เป็นคำใบ้ คุณต้องการที่จะให้ผลรวมไม่ได้ขึ้นอยู่กับนโยบายเพื่อที่อนุพันธ์จะเป็น 0 ดังนั้นคุณพยายามที่จะแสดงสิ่งต่าง ๆ โดยใช้นโยบาย p (s, a) คำตอบ btw สามารถพบได้ในสมุดแนะนำ RL ของซัตตันในบทไล่ระดับนโยบาย

— Hai Nguyen

ขอบคุณมาก! ฉันจะใช้คำใบ้นั้นเพื่อเริ่มต้นรวมทั้งขอบคุณที่บอกฉันเกี่ยวกับสิ่งที่อยู่ใน Sutton RL ฉันอ่านหนังสือเล่มนั้นและมันยอดเยี่ยมมาก!

— ลอร่า C

@LauraC หากคุณพบคำตอบก่อนใครกรุณากลับมาและโพสต์เป็นคำตอบอย่างเป็นทางการที่นี่ (ผู้คนชอบคำถามนี้อย่างแน่นอน :)

— DukeZhou

ฉันเพิ่มข้อมูลบริบทสำหรับคำถาม

— Manuel Rodriguez

คำตอบ:

การใช้กฎของความคาดหวังซ้ำแล้วซ้ำอีกมี:

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = \nabla_\theta \sum_{t=1}^T \mathbb{E}_{s_t \sim p(s_t)} \left[ \mathbb{E}_{a_t \sim \pi_\theta(a_t | s_t)} \left[ b(s_t) \right]\right] =$

เขียนด้วยปริพันธ์และเลื่อนการไล่ระดับสีภายใน (เป็นเส้นตรง) ที่คุณได้รับ

$= \sum_{t=1}^T \int_{s_t} p(s_t) \left(\int_{a_t} \nabla_\theta b(s_t) \pi_\theta(a_t | s_t) da_t \right)ds_t =$

ตอนนี้คุณสามารถย้าย (เนื่องจากเป็นเส้นตรง) และ (ไม่ได้ขึ้นอยู่กับ ) ในรูปแบบอินทิกรัลชั้นในไปยังด้านนอก: $\nabla_\theta$ $b(s_t)$ $a_t$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta \left(\int_{a_t} \pi_\theta(a_t | s_t) da_t \right)ds_t=$

$\pi_\theta(a_t | s_t)$ เป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็น (เงื่อนไข) ดังนั้นจึงรวมทั้งหมดสำหรับสถานะคงที่ที่กำหนดเท่ากับ : $a_t$ $s_t$ $1$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta 1 ds_t =$

ตอนนี้ซึ่งสรุปการพิสูจน์ $\nabla_\theta1 = 0$

— Andrei Poehlmann
แหล่งที่มา

ปรากฏว่าบ้านเป็นเพราะสองวันก่อนที่จะมีการเขียนของคำตอบนี้ แต่ในกรณีที่มันยังคงเป็นที่เกี่ยวข้องในทางใดทางหนึ่งที่บันทึกชั้นที่เกี่ยวข้อง (ซึ่งจะได้รับประโยชน์ในกรณีที่ระบุไว้ในคำถามพร้อมกับบ้าน) อยู่ที่นี่

ตัวอย่างแรกของความคาดหวังของนักเรียนคือ "กรุณาแสดงสมการที่ 12 โดยใช้กฎของความคาดหวังซ้ำแล้วซ้ำเล่าทำลายโดยแยกการกระทำของรัฐ ร่อแร่จากส่วนที่เหลือของวิถี " สมการ 12 คือสิ่งนี้ $\mathbb{E}_{\tau \sim p \theta(\tau)}$

$\sum_{t = 1}^{T} E_{\tau \sim p \theta(\tau)} [\nabla_\theta \log \pi_\theta(a_t|s_t)(b(s_t))] = 0$

บันทึกย่อของชั้นระบุเป็นส่วนต่างของการกระทำของรัฐ มันไม่ได้เป็นข้อพิสูจน์ที่ต้องการ แต่เป็นลำดับขั้นตอนพีชคณิตเพื่อดำเนินการ decoupling และแสดงระดับที่ความเป็นอิสระของขอบเขตการกระทำของรัฐสามารถทำได้ $\pi_\theta(a_t|s_t)$

แบบฝึกหัดนี้เป็นการเตรียมการสำหรับขั้นตอนต่อไปในการทำการบ้านและใช้สำหรับการทบทวน CS189 ซึ่งเป็นหลักสูตรเบื้องต้นของ Burkeley's Introduction to Machine Learning ซึ่งไม่ได้มีกฎความคาดหวังโดยรวมในหลักสูตรหรือบันทึกย่อของชั้นเรียน

ข้อมูลที่เกี่ยวข้องทั้งหมดอยู่ในลิงค์ด้านบนสำหรับบันทึกย่อของชั้นเรียนและต้องการพีชคณิตระดับกลางเท่านั้น

— ดักลาสดาเซโก
แหล่งที่มา