คำถามที่ 1: มีวิธีการทั่วไปหรือเป็นที่ยอมรับในการจัดการกับสภาพแวดล้อมที่ไม่อยู่นิ่งในการเรียนรู้การเสริมแรงโดยทั่วไปหรือไม่?
ตัวแทน RL พื้นฐานส่วนใหญ่ออนไลน์และการเรียนรู้ออนไลน์สามารถจัดการกับปัญหาที่ไม่หยุดนิ่งได้ นอกจากนี้กฎปรับปรุงสำหรับมูลค่ารัฐและค่าดำเนินการประมาณค่าในการควบคุมปัญหามักจะเขียนขึ้นสำหรับเป้าหมายที่ไม่หยุดนิ่งเพราะเป้าหมายแล้วเปลี่ยนเป็นนโยบายที่ดีขึ้น สิ่งนี้ไม่ซับซ้อนเพียงแค่ใช้อัตราการเรียนรู้α ในการอัปเดตเมื่อประมาณค่ามีประสิทธิภาพหมายถึงเรขาคณิตกลิ้งอย่างมีประสิทธิภาพเมื่อเทียบกับค่าเฉลี่ยในประวัติศาสตร์ทั้งหมดในแบบไม่ถ่วง
อย่างไรก็ตามที่อยู่นี้ไม่ได้อยู่ในระยะยาวเช่นปัญหาการเปลี่ยนแปลงระหว่างตอนหรือในช่วงเวลาที่ยาวนานกว่า คำอธิบายของคุณดูเหมือนว่าคุณต้องการเปลี่ยนโครงสร้างรางวัลตามการกระทำที่ตัวแทนดำเนินการภายในระยะเวลาอันสั้น การตอบสนองแบบไดนามิกที่มีต่อการกระทำนั้นดีกว่าในฐานะ MDP ที่มีความซับซ้อนมากกว่าซึ่งแตกต่างจาก MDP ที่ไม่ซับซ้อน
ตัวแทนไม่สามารถเรียนรู้การเปลี่ยนแปลงสภาพแวดล้อมที่ยังไม่ได้สุ่มตัวอย่างได้ดังนั้นการเปลี่ยนโครงสร้างรางวัลจะไม่ป้องกันไม่ให้ตัวแทนกลับสู่สถานะที่เคยเยี่ยมชมก่อนหน้านี้ ยกเว้นว่าคุณกำลังใช้สิ่งที่คล้ายกับ RNN ในเอเจนต์เอเจนต์จะไม่มี "หน่วยความจำ" ของสิ่งที่เกิดขึ้นก่อนหน้าในตอนอื่นนอกเหนือจากที่แสดงในสถานะปัจจุบัน (เนื้อหาที่ใช้ RNN ทำให้เลเยอร์ที่ซ่อนอยู่ของส่วน RNN ของรัฐ) ข้ามหลายตอนถ้าคุณใช้ตัวแทน Q-learning แบบตารางตัวแทนจะเรียนรู้ว่าบางรัฐมีค่าต่ำมันจะไม่สามารถเรียนรู้ว่าการเยี่ยมชมครั้งที่สองหรือครั้งที่สามไปยังสถานะที่ทำให้เกิดผลนั้นเพราะไม่มี วิธีแสดงความรู้นั้น มันจะไม่สามารถปรับตัวเข้ากับการเปลี่ยนแปลงอย่างรวดเร็วพอที่จะเรียนรู้ออนไลน์และตอนกลาง
Q2: ใน gridworld ของฉันฉันได้เปลี่ยนฟังก์ชั่นการให้รางวัลเมื่อมีการเยี่ยมชมรัฐ ทั้งหมดที่ฉันต้องการให้ตัวแทนของฉันเรียนรู้คือ "อย่ากลับไปเว้นแต่คุณต้องการจริงๆ" อย่างไรก็ตามสิ่งนี้ทำให้สภาพแวดล้อมไม่อยู่กับที่
หากนั่นคือทั้งหมดที่คุณต้องการให้ตัวแทนเรียนรู้บางทีนี่อาจได้รับการสนับสนุนจากโครงสร้างรางวัลที่เหมาะสม ก่อนที่คุณจะทำสิ่งนั้นได้คุณต้องเข้าใจตัวเองว่า "จำเป็นต้อง" จริงๆหมายถึงอะไรและต้องเข้มงวดในเรื่องนี้อย่างมีเหตุผล คุณอาจจะตกลง แต่เพียงแค่กำหนดบทลงโทษสำหรับการเยี่ยมชมสถานที่ใด ๆ ที่ตัวแทนได้เข้าเยี่ยมชมแล้วหรือล่าสุด
สามารถ / ควรรวมกฎง่าย ๆ นี้ไว้ในโมเดล MDP หรือไม่และอย่างไร
ใช่คุณควรเพิ่มข้อมูลเกี่ยวกับสถานที่ที่เข้าชมเป็นรัฐ สิ่งนี้จะทำให้แบบจำลองรัฐของคุณซับซ้อนกว่าโลกกริดแบบง่ายเพิ่มมิติของปัญหา แต่หลีกเลี่ยงไม่ได้ ปัญหาในโลกแห่งความเป็นจริงส่วนใหญ่จะเร็วเกินกว่าตัวอย่างของเล่นที่ให้ไว้เพื่อสอนแนวคิด RL
ทางเลือกหนึ่งคือกรอบปัญหาเป็นกระบวนการตัดสินใจมาร์คอฟสังเกตบางส่วน (POMDP) ในกรณีนั้นสถานะ "ของจริง" จะยังคงรวมถึงประวัติที่จำเป็นทั้งหมดเพื่อคำนวณรางวัล (และเนื่องจากนี่เป็นปัญหาของเล่นในคอมพิวเตอร์คุณจะต้องแสดงมันอย่างใด) แต่ตัวแทนสามารถพยายามเรียนรู้จากการถูก จำกัด ความรู้เกี่ยวกับรัฐไม่ว่าคุณจะปล่อยให้มันสังเกตอะไร โดยทั่วไปนี่เป็นวิธีที่ยากกว่าการขยายการเป็นตัวแทนรัฐและฉันจะไม่แนะนำที่นี่ อย่างไรก็ตามหากคุณพบว่าความคิดที่น่าสนใจคุณสามารถใช้ปัญหาของคุณเพื่อสำรวจ POMDP นี่คือรายงานล่าสุด (จากทีม Deep Mind ของ Google ปี 2015) ที่ดูอัลกอริธึม RL สองตัวรวมกับ RNNเพื่อแก้ปัญหา POMDP
คำถามที่ 3: ฉันได้ดู Q-learning ด้วยการเล่นซ้ำประสบการณ์เป็นวิธีแก้ไขปัญหาเกี่ยวกับสภาพแวดล้อมที่ไม่หยุดนิ่งเนื่องจากมันสัมพันธ์กับการปรับปรุงที่ต่อเนื่อง นี่เป็นการใช้วิธีที่ถูกต้องหรือมากกว่านั้นเพื่อจัดการกับการเรียนรู้ข้อมูลที่มีประสิทธิภาพมากขึ้นหรือไม่
การเล่นซ้ำประสบการณ์จะไม่ช่วยให้มีสภาพแวดล้อมที่ไม่อยู่นิ่ง ในความเป็นจริงมันอาจทำให้ประสิทธิภาพแย่ลง อย่างไรก็ตามตามที่ระบุไว้แล้วปัญหาของคุณไม่ได้เกี่ยวกับสภาพแวดล้อมที่ไม่อยู่นิ่ง แต่เกี่ยวกับการจัดการการเปลี่ยนแปลงของรัฐที่ซับซ้อนมากขึ้น
สิ่งที่คุณอาจต้องทำคือดูการประมาณฟังก์ชั่นหากจำนวนสถานะเพิ่มขึ้นเป็นจำนวนมากพอ ตัวอย่างเช่นถ้าคุณต้องการที่จะจัดการใด ๆกลับมาติดตามและมีความซับซ้อนรางวัลการปรับเปลี่ยนกฎที่แทร็คที่ตั้งเข้าชมแต่ละรัฐของคุณแล้วอาจมีการเปลี่ยนแปลงจากหลายสถานที่เดียวที่จะแผนที่แสดงสถานที่ที่ไป ตัวอย่างเช่นมันอาจไปจาก64 รัฐสำหรับ 8×8 กริดโลกเพื่อ 264แผนที่รัฐแสดงสี่เหลี่ยมที่เยี่ยมชม นี่สูงเกินไปที่จะติดตามในตารางค่าดังนั้นโดยทั่วไปคุณจะใช้เครือข่ายประสาท (หรือเครือข่ายประสาทเทียม) เพื่อประเมินค่าสถานะแทน
ด้วยฟังก์ชั่นการประมาณฟังก์ชั่นการเล่นซ้ำมีประโยชน์มากโดยที่ไม่มีกระบวนการเรียนรู้ที่มีแนวโน้มว่าจะไม่เสถียร วิธี DQN ล่าสุดสำหรับการเล่นเกม Atari ใช้การเล่นซ้ำด้วยเหตุนี้