เหตุใดพื้นฐานจึงมีเงื่อนไขตามสถานะในบางช่วงเวลาที่เป็นกลาง


9

ในหุ่นยนต์เทคนิคการเรียนรู้การเสริมแรงจะใช้สำหรับการค้นหารูปแบบการควบคุมสำหรับหุ่นยนต์ น่าเสียดายที่วิธีการไล่ระดับนโยบายส่วนใหญ่มีความเอนเอียงทางสถิติซึ่งสามารถนำหุ่นยนต์ไปสู่สถานการณ์ที่ไม่ปลอดภัยดูหน้า 2 ในJan Peters และ Stefan Schaal: การเสริมแรงการเรียนรู้ทักษะยนต์ด้วยการไล่ระดับนโยบาย, 2008

ด้วยการเรียนรู้ดั้งเดิมของมอเตอร์มันเป็นไปได้ที่จะเอาชนะปัญหานี้ได้เนื่องจากการปรับพารามิเตอร์พารามิเตอร์ gradient ของนโยบายนำขั้นตอนการเรียนรู้ไปสู่เป้าหมาย

เครื่องหมายคำพูด:“ ถ้าการประมาณการไล่ระดับสีไม่เป็นกลางและอัตราการเรียนรู้เป็นไปตามผลรวม (a) = 0 กระบวนการเรียนรู้นั้นรับประกันว่าจะมาบรรจบกันอย่างน้อยที่สุดในระดับท้องถิ่น [... ] ดังนั้นเราต้องประเมินการไล่ระดับนโยบายจากข้อมูลที่สร้างขึ้นเท่านั้น ระหว่างการทำงานของงาน ” (หน้า 4 ของกระดาษเดียวกัน)

ในการบ้านสำหรับชั้นเรียน Berkeley RLปัญหา 1 มันขอให้คุณแสดงให้เห็นว่าการไล่ระดับนโยบายยังคงเป็นกลางหากการลบล้างพื้นฐานเป็นหน้าที่ของรัฐที่ประทับเวลา t

θt=1TE(st,at)p(st,at)[b(st)]=0

ฉันกำลังดิ้นรนผ่านขั้นตอนแรกของการพิสูจน์เช่นนี้ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ความคิดเริ่มต้นของฉันคือการใช้กฎแห่งความคาดหวังทั้งหมดเพื่อทำให้ความคาดหวังของเงื่อนไข b (st) บน T แต่ฉันไม่แน่ใจ ขอบคุณล่วงหน้า :)

เชื่อมโยงไปยัง png ดั้งเดิมของสมการ


ยินดีต้อนรับสู่ SE: AI! (ฉันใช้เสรีภาพในการแปลงสมการเป็น MathJax ต้นฉบับ. png เชื่อมโยงที่ด้านล่าง)
DukeZhou

2
ไม่มีเวลามากพอที่จะเขียนสมการที่แน่นอนและจัดรูปแบบ (อาจจะภายหลังหากยังไม่ได้รับคำตอบ) ด้วย LaTeX แต่นี่เป็นคำใบ้ คุณต้องการที่จะให้ผลรวมไม่ได้ขึ้นอยู่กับนโยบายเพื่อที่อนุพันธ์จะเป็น 0 ดังนั้นคุณพยายามที่จะแสดงสิ่งต่าง ๆ โดยใช้นโยบาย p (s, a) คำตอบ btw สามารถพบได้ในสมุดแนะนำ RL ของซัตตันในบทไล่ระดับนโยบาย
Hai Nguyen

1
ขอบคุณมาก! ฉันจะใช้คำใบ้นั้นเพื่อเริ่มต้นรวมทั้งขอบคุณที่บอกฉันเกี่ยวกับสิ่งที่อยู่ใน Sutton RL ฉันอ่านหนังสือเล่มนั้นและมันยอดเยี่ยมมาก!
ลอร่า C

@LauraC หากคุณพบคำตอบก่อนใครกรุณากลับมาและโพสต์เป็นคำตอบอย่างเป็นทางการที่นี่ (ผู้คนชอบคำถามนี้อย่างแน่นอน :)
DukeZhou

ฉันเพิ่มข้อมูลบริบทสำหรับคำถาม
Manuel Rodriguez

คำตอบ:


7

การใช้กฎของความคาดหวังซ้ำแล้วซ้ำอีกมี:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

เขียนด้วยปริพันธ์และเลื่อนการไล่ระดับสีภายใน (เป็นเส้นตรง) ที่คุณได้รับ

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

ตอนนี้คุณสามารถย้าย (เนื่องจากเป็นเส้นตรง) และ (ไม่ได้ขึ้นอยู่กับ ) ในรูปแบบอินทิกรัลชั้นในไปยังด้านนอก:θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)เป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็น (เงื่อนไข) ดังนั้นจึงรวมทั้งหมดสำหรับสถานะคงที่ที่กำหนดเท่ากับ :atst1

=t=1Tstp(st)b(st)θ1dst=

ตอนนี้ซึ่งสรุปการพิสูจน์θ1=0


1

ปรากฏว่าบ้านเป็นเพราะสองวันก่อนที่จะมีการเขียนของคำตอบนี้ แต่ในกรณีที่มันยังคงเป็นที่เกี่ยวข้องในทางใดทางหนึ่งที่บันทึกชั้นที่เกี่ยวข้อง (ซึ่งจะได้รับประโยชน์ในกรณีที่ระบุไว้ในคำถามพร้อมกับบ้าน) อยู่ที่นี่

ตัวอย่างแรกของความคาดหวังของนักเรียนคือ "กรุณาแสดงสมการที่ 12 โดยใช้กฎของความคาดหวังซ้ำแล้วซ้ำเล่าทำลายโดยแยกการกระทำของรัฐ ร่อแร่จากส่วนที่เหลือของวิถี " สมการ 12 คือสิ่งนี้Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

บันทึกย่อของชั้นระบุเป็นส่วนต่างของการกระทำของรัฐ มันไม่ได้เป็นข้อพิสูจน์ที่ต้องการ แต่เป็นลำดับขั้นตอนพีชคณิตเพื่อดำเนินการ decoupling และแสดงระดับที่ความเป็นอิสระของขอบเขตการกระทำของรัฐสามารถทำได้πθ(at|st)

แบบฝึกหัดนี้เป็นการเตรียมการสำหรับขั้นตอนต่อไปในการทำการบ้านและใช้สำหรับการทบทวน CS189 ซึ่งเป็นหลักสูตรเบื้องต้นของ Burkeley's Introduction to Machine Learning ซึ่งไม่ได้มีกฎความคาดหวังโดยรวมในหลักสูตรหรือบันทึกย่อของชั้นเรียน

ข้อมูลที่เกี่ยวข้องทั้งหมดอยู่ในลิงค์ด้านบนสำหรับบันทึกย่อของชั้นเรียนและต้องการพีชคณิตระดับกลางเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.