จะกำหนดรัฐในการเรียนรู้เสริมได้อย่างไร?


14

ฉันกำลังเรียนรู้การเสริมกำลังและตัวแปรของมัน ฉันเริ่มเข้าใจถึงวิธีการทำงานของอัลกอริทึมและวิธีนำไปใช้กับ MDP สิ่งที่ฉันไม่เข้าใจคือกระบวนการกำหนดสถานะของ MDP ในตัวอย่างและแบบฝึกหัดส่วนใหญ่พวกเขาแสดงสิ่งที่ง่ายเช่นสี่เหลี่ยมในตารางหรือคล้ายกัน

สำหรับปัญหาที่ซับซ้อนมากขึ้นเช่นการเรียนรู้การเดินของหุ่นยนต์เป็นต้นคุณจะกำหนดสถานะอย่างไร คุณสามารถใช้อัลกอริทึมการเรียนรู้หรือการจำแนกประเภทเพื่อ "เรียนรู้" สถานะเหล่านั้นได้หรือไม่?

คำตอบ:


14

ปัญหาของการเป็นตัวแทนของรัฐในการเรียนรู้เสริม (RL) คล้ายกับปัญหาของการเป็นตัวแทนคุณลักษณะการเลือกคุณสมบัติและวิศวกรรมคุณสมบัติในการเรียนรู้แบบมีผู้สอนหรือไม่ได้รับการดูแล

วรรณกรรมที่สอนพื้นฐานของ RL มีแนวโน้มที่จะใช้สภาพแวดล้อมที่ง่ายมากเพื่อให้ระบุสถานะทั้งหมด สิ่งนี้ทำให้การประมาณค่าง่ายขึ้นในค่าเฉลี่ยการหมุนพื้นฐานในตารางซึ่งง่ายต่อการเข้าใจและนำไปใช้ อัลกอริธึมการเรียนรู้แบบตารางยังมีการรับประกันทางทฤษฎีที่สมเหตุสมผลเกี่ยวกับการลู่เข้าซึ่งหมายความว่าถ้าคุณสามารถทำให้ปัญหาของคุณง่ายขึ้นเพื่อที่จะให้พูดน้อยกว่าสองสามล้านรัฐ

ปัญหาการควบคุมที่น่าสนใจส่วนใหญ่จะไม่เข้ากับสถานะของจำนวนนั้นแม้ว่าคุณจะแยกแยะพวกเขา นี่คือสาเหตุที่ " คำสาปของมิติ " สำหรับปัญหาเหล่านั้นโดยทั่วไปคุณจะแสดงสถานะของคุณเป็นเวกเตอร์ที่มีคุณสมบัติที่แตกต่างกันเช่นสำหรับหุ่นยนต์ตำแหน่งต่าง ๆ มุมความเร็วของชิ้นส่วนเครื่องจักร เช่นเดียวกับการเรียนรู้ภายใต้การดูแลคุณอาจต้องการจัดการสิ่งเหล่านี้เพื่อใช้กับกระบวนการเรียนรู้ที่เฉพาะเจาะจง ตัวอย่างเช่นโดยทั่วไปคุณจะต้องการให้พวกเขาทั้งหมดเป็นตัวเลขและหากคุณต้องการใช้เครือข่ายประสาทคุณควรทำให้มาตรฐานเป็นช่วงมาตรฐาน (เช่น -1 ถึง 1)

นอกเหนือจากข้อกังวลข้างต้นซึ่งใช้กับการเรียนรู้ของเครื่องอื่น ๆ สำหรับ RL คุณยังต้องเกี่ยวข้องกับMarkov Property - ว่ารัฐให้ข้อมูลเพียงพอเพื่อให้คุณสามารถทำนายผลตอบแทนที่คาดหวังต่อไปและสถานะถัดไปได้อย่างแม่นยำ โดยไม่จำเป็นต้องมีข้อมูลเพิ่มเติมใด ๆ สิ่งนี้ไม่จำเป็นต้องสมบูรณ์แบบแตกต่างกันเล็กน้อยเนื่องจากเช่นความหลากหลายของความหนาแน่นของอากาศหรืออุณหภูมิสำหรับหุ่นยนต์ที่มีล้อเลื่อนมักจะไม่ส่งผลกระทบอย่างใหญ่หลวงต่อการนำทางและสามารถเพิกเฉยได้ ปัจจัยใดก็ตามที่เป็นหลักสุ่มสามารถละเว้นได้ในขณะที่ยึดทฤษฎี RL - มันอาจทำให้ตัวแทนโดยรวมที่ดีที่สุดน้อยลง แต่ทฤษฎีจะยังคงทำงาน

หากมีปัจจัยที่ไม่รู้จักที่สอดคล้องกันซึ่งมีผลต่อผลลัพธ์และสามารถสรุปได้อย่างมีเหตุผล - อาจมาจากประวัติของรัฐหรือการกระทำ - แต่คุณได้แยกพวกเขาออกจากการเป็นตัวแทนของรัฐแล้วคุณอาจมีปัญหาร้ายแรงมากขึ้น .

เป็นมูลค่า noting ความแตกต่างที่นี่ระหว่างการสังเกตและรัฐ การสังเกตคือข้อมูลบางอย่างที่คุณสามารถรวบรวมได้ เช่นคุณอาจมีเซ็นเซอร์บนหุ่นยนต์ของคุณที่ดึงกลับตำแหน่งของข้อต่อ เนื่องจากรัฐควรมีทรัพย์สินมาร์คอฟการสังเกตแบบดิบครั้งเดียวอาจมีข้อมูลไม่เพียงพอที่จะทำให้เป็นสถานะที่เหมาะสม หากเป็นกรณีนี้คุณสามารถใช้ความรู้โดเมนของคุณเพื่อสร้างสถานะที่ดีขึ้นจากข้อมูลที่มีอยู่หรือคุณสามารถลองใช้เทคนิคที่ออกแบบมาสำหรับMDPs ที่สังเกตได้บางส่วน (POMDP)ซึ่งเป็นส่วนที่พยายามสร้างส่วนข้อมูลรัฐที่หายไป สถิติ คุณสามารถใช้ RNN หรือโมเดลมาร์คอฟที่ซ่อนอยู่ (เรียกอีกอย่างว่า "ความเชื่อของรัฐ") สำหรับสิ่งนี้และในบางวิธีที่ใช้ "การเรียนรู้หรืออัลกอริทึมการจำแนกเพื่อ "เรียนรู้" สถานะเหล่านั้น "ตามที่คุณถาม

สุดท้ายคุณต้องพิจารณาประเภทของตัวแบบการประมาณที่คุณต้องการใช้ วิธีการที่คล้ายกันนี้ใช้สำหรับการเรียนรู้แบบมีผู้สอน:

  • การถดถอยเชิงเส้นอย่างง่ายพร้อมฟีเจอร์ที่สร้างขึ้นบนพื้นฐานความรู้ของโดเมนสามารถทำได้ดีมาก คุณอาจต้องทำงานอย่างหนักเพื่อลองใช้การรับรองสถานะที่แตกต่างกันเพื่อให้การประมาณเชิงเส้นทำงานได้ ข้อดีคือวิธีการที่เรียบง่ายนี้มีความทนทานต่อปัญหาด้านความมั่นคงมากกว่าการประมาณแบบไม่เชิงเส้น

  • ตัวประมาณฟังก์ชั่นที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้นเช่นเครือข่ายประสาทหลายชั้น คุณสามารถป้อนในเวกเตอร์สถานะ "ดิบ" เพิ่มเติมและหวังว่าเลเยอร์ที่ซ่อนอยู่จะพบโครงสร้างหรือการแสดงบางอย่างที่นำไปสู่การประมาณการที่ดี ในบางวิธีสิ่งนี้ก็คือ " อัลกอริทึมการเรียนรู้หรือการจำแนกประเภทเพื่อ" เรียนรู้ "สถานะเหล่านั้น " แต่ในวิธีที่ต่างไปจาก RNN หรือ HMM นี่อาจเป็นวิธีที่เหมาะสมหากรัฐของคุณแสดงเป็นภาพหน้าจอโดยธรรมชาติ - การหาวิศวกรรมคุณสมบัติสำหรับข้อมูลภาพด้วยมือนั้นยากมาก

การทำงานของ Atari DQN โดยทีมDeepMindใช้การผสมผสานระหว่างคุณสมบัติทางวิศวกรรมและใช้เครือข่ายระบบประสาทในระดับลึกเพื่อให้ได้ผลลัพธ์ คุณสมบัติของวิศวกรรมรวมถึงการสุ่มตัวอย่างภาพลดระดับสีเทาและ - ที่สำคัญสำหรับทรัพย์สินมาร์คอฟ - ใช้สี่เฟรมต่อเนื่องเพื่อเป็นตัวแทนของรัฐเดียวดังนั้นข้อมูลเกี่ยวกับความเร็วของวัตถุที่อยู่ในการเป็นตัวแทนของรัฐ จากนั้น DNN ประมวลผลภาพให้เป็นคุณสมบัติระดับสูงที่สามารถใช้ในการคาดการณ์เกี่ยวกับค่าสถานะ


3

วิธีการในช่วงต้นเรื่องธรรมดาที่จะสร้างแบบจำลองปัญหาที่ซับซ้อนก็ไม่ต่อเนื่อง ในระดับพื้นฐานนี่เป็นการแบ่งพื้นที่ที่ซับซ้อนและต่อเนื่องเป็นกริด จากนั้นคุณสามารถใช้เทคนิค RL แบบคลาสสิกใด ๆ ที่ได้รับการออกแบบมาสำหรับเว้นวรรคเชิงเส้นและเชิงเส้น อย่างไรก็ตามอย่างที่คุณคิดถ้าคุณไม่ระวังนี่อาจทำให้เกิดปัญหามากมาย!

หนังสือเสริมการเรียนรู้แบบเสริมแรงแบบดั้งเดิมของ Sutton & Barto มีคำแนะนำสำหรับวิธีการอื่น ๆ หนึ่งคือกระเบื้องเข้ารหัสปกคลุมในส่วน 9.5.4 ของใหม่รุ่นที่สอง ในการเข้ารหัสไทล์เราสร้างกริดจำนวนมากแต่ละอันมีระยะห่างของกริดที่แตกต่างกัน จากนั้นเราวางทับกริดที่ด้านบนของกันและกัน สิ่งนี้สร้างรูปร่างที่ไม่ต่อเนื่องของภูมิภาคที่ไม่ต่อเนื่องและสามารถทำงานได้ดีสำหรับปัญหาที่หลากหลาย

ส่วนที่ 9.5 ยังครอบคลุมถึงวิธีการอื่น ๆ ที่หลากหลายในการเข้ารหัสพื้นที่ต่อเนื่องใน MDP แบบแยกส่วนรวมถึงฟังก์ชั่นพื้นฐานทางรัศมีและการเข้ารหัสแบบหยาบ ลองดูสิ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.