การเรียนรู้การเสริมแรงในสภาพแวดล้อมที่ไม่หยุดนิ่ง [ปิด]


9

คำถามที่ 1: มีวิธีการทั่วไปหรือเป็นที่ยอมรับในการจัดการกับสภาพแวดล้อมที่ไม่อยู่นิ่งในการเรียนรู้การเสริมแรงโดยทั่วไปหรือไม่?

Q2: ใน gridworld ของฉันฉันได้เปลี่ยนฟังก์ชั่นการให้รางวัลเมื่อมีการเยี่ยมชมรัฐ ทุก ๆ ตอนรางวัลจะรีเซ็ตเป็นสถานะเริ่มต้น ทั้งหมดที่ฉันต้องการให้ตัวแทนของฉันเรียนรู้คือ "อย่าย้อนกลับไปเว้นแต่คุณต้องการจริงๆ" อย่างไรก็ตามสิ่งนี้ทำให้สภาพแวดล้อมไม่อยู่กับที่ สามารถ / ควรรวมกฎง่ายๆนี้ไว้ในโมเดล MDP หรือไม่และอย่างไร Q-learning เป็นทางออกที่ดีที่สุดในการจัดการกับปัญหานี้หรือไม่? ข้อเสนอแนะหรือตัวอย่างที่มีอยู่?

คำถามที่ 3: ฉันได้ดู Q-learning ด้วยการเล่นซ้ำประสบการณ์เป็นวิธีแก้ไขปัญหาเกี่ยวกับสภาพแวดล้อมที่ไม่หยุดนิ่งเนื่องจากมันสัมพันธ์กับการปรับปรุงที่ต่อเนื่อง นี่เป็นการใช้วิธีที่ถูกต้องหรือมากกว่านั้นเพื่อจัดการกับการเรียนรู้ข้อมูลที่มีประสิทธิภาพมากขึ้นหรือไม่ และฉันเห็นว่ามันใช้กับการประมาณค่าเท่านั้น ฉันไม่แน่ใจว่ามันเป็น overkill หรือเปล่าที่จะใช้มันสำหรับพื้นที่ที่แยกออกง่าย ๆ เช่น gridworld หรือมีเหตุผลอื่นสำหรับเรื่องนี้

โปรดตอบหรือแสดงความคิดเห็นแม้ว่าคุณจะไม่สามารถตอบคำถามทุกข้อได้

คำตอบ:


10

คำถามที่ 1: มีวิธีการทั่วไปหรือเป็นที่ยอมรับในการจัดการกับสภาพแวดล้อมที่ไม่อยู่นิ่งในการเรียนรู้การเสริมแรงโดยทั่วไปหรือไม่?

ตัวแทน RL พื้นฐานส่วนใหญ่ออนไลน์และการเรียนรู้ออนไลน์สามารถจัดการกับปัญหาที่ไม่หยุดนิ่งได้ นอกจากนี้กฎปรับปรุงสำหรับมูลค่ารัฐและค่าดำเนินการประมาณค่าในการควบคุมปัญหามักจะเขียนขึ้นสำหรับเป้าหมายที่ไม่หยุดนิ่งเพราะเป้าหมายแล้วเปลี่ยนเป็นนโยบายที่ดีขึ้น สิ่งนี้ไม่ซับซ้อนเพียงแค่ใช้อัตราการเรียนรู้α ในการอัปเดตเมื่อประมาณค่ามีประสิทธิภาพหมายถึงเรขาคณิตกลิ้งอย่างมีประสิทธิภาพเมื่อเทียบกับค่าเฉลี่ยในประวัติศาสตร์ทั้งหมดในแบบไม่ถ่วง

อย่างไรก็ตามที่อยู่นี้ไม่ได้อยู่ในระยะยาวเช่นปัญหาการเปลี่ยนแปลงระหว่างตอนหรือในช่วงเวลาที่ยาวนานกว่า คำอธิบายของคุณดูเหมือนว่าคุณต้องการเปลี่ยนโครงสร้างรางวัลตามการกระทำที่ตัวแทนดำเนินการภายในระยะเวลาอันสั้น การตอบสนองแบบไดนามิกที่มีต่อการกระทำนั้นดีกว่าในฐานะ MDP ที่มีความซับซ้อนมากกว่าซึ่งแตกต่างจาก MDP ที่ไม่ซับซ้อน

ตัวแทนไม่สามารถเรียนรู้การเปลี่ยนแปลงสภาพแวดล้อมที่ยังไม่ได้สุ่มตัวอย่างได้ดังนั้นการเปลี่ยนโครงสร้างรางวัลจะไม่ป้องกันไม่ให้ตัวแทนกลับสู่สถานะที่เคยเยี่ยมชมก่อนหน้านี้ ยกเว้นว่าคุณกำลังใช้สิ่งที่คล้ายกับ RNN ในเอเจนต์เอเจนต์จะไม่มี "หน่วยความจำ" ของสิ่งที่เกิดขึ้นก่อนหน้าในตอนอื่นนอกเหนือจากที่แสดงในสถานะปัจจุบัน (เนื้อหาที่ใช้ RNN ทำให้เลเยอร์ที่ซ่อนอยู่ของส่วน RNN ของรัฐ) ข้ามหลายตอนถ้าคุณใช้ตัวแทน Q-learning แบบตารางตัวแทนจะเรียนรู้ว่าบางรัฐมีค่าต่ำมันจะไม่สามารถเรียนรู้ว่าการเยี่ยมชมครั้งที่สองหรือครั้งที่สามไปยังสถานะที่ทำให้เกิดผลนั้นเพราะไม่มี วิธีแสดงความรู้นั้น มันจะไม่สามารถปรับตัวเข้ากับการเปลี่ยนแปลงอย่างรวดเร็วพอที่จะเรียนรู้ออนไลน์และตอนกลาง

Q2: ใน gridworld ของฉันฉันได้เปลี่ยนฟังก์ชั่นการให้รางวัลเมื่อมีการเยี่ยมชมรัฐ ทั้งหมดที่ฉันต้องการให้ตัวแทนของฉันเรียนรู้คือ "อย่ากลับไปเว้นแต่คุณต้องการจริงๆ" อย่างไรก็ตามสิ่งนี้ทำให้สภาพแวดล้อมไม่อยู่กับที่

หากนั่นคือทั้งหมดที่คุณต้องการให้ตัวแทนเรียนรู้บางทีนี่อาจได้รับการสนับสนุนจากโครงสร้างรางวัลที่เหมาะสม ก่อนที่คุณจะทำสิ่งนั้นได้คุณต้องเข้าใจตัวเองว่า "จำเป็นต้อง" จริงๆหมายถึงอะไรและต้องเข้มงวดในเรื่องนี้อย่างมีเหตุผล คุณอาจจะตกลง แต่เพียงแค่กำหนดบทลงโทษสำหรับการเยี่ยมชมสถานที่ใด ๆ ที่ตัวแทนได้เข้าเยี่ยมชมแล้วหรือล่าสุด

สามารถ / ควรรวมกฎง่าย ๆ นี้ไว้ในโมเดล MDP หรือไม่และอย่างไร

ใช่คุณควรเพิ่มข้อมูลเกี่ยวกับสถานที่ที่เข้าชมเป็นรัฐ สิ่งนี้จะทำให้แบบจำลองรัฐของคุณซับซ้อนกว่าโลกกริดแบบง่ายเพิ่มมิติของปัญหา แต่หลีกเลี่ยงไม่ได้ ปัญหาในโลกแห่งความเป็นจริงส่วนใหญ่จะเร็วเกินกว่าตัวอย่างของเล่นที่ให้ไว้เพื่อสอนแนวคิด RL

ทางเลือกหนึ่งคือกรอบปัญหาเป็นกระบวนการตัดสินใจมาร์คอฟสังเกตบางส่วน (POMDP) ในกรณีนั้นสถานะ "ของจริง" จะยังคงรวมถึงประวัติที่จำเป็นทั้งหมดเพื่อคำนวณรางวัล (และเนื่องจากนี่เป็นปัญหาของเล่นในคอมพิวเตอร์คุณจะต้องแสดงมันอย่างใด) แต่ตัวแทนสามารถพยายามเรียนรู้จากการถูก จำกัด ความรู้เกี่ยวกับรัฐไม่ว่าคุณจะปล่อยให้มันสังเกตอะไร โดยทั่วไปนี่เป็นวิธีที่ยากกว่าการขยายการเป็นตัวแทนรัฐและฉันจะไม่แนะนำที่นี่ อย่างไรก็ตามหากคุณพบว่าความคิดที่น่าสนใจคุณสามารถใช้ปัญหาของคุณเพื่อสำรวจ POMDP นี่คือรายงานล่าสุด (จากทีม Deep Mind ของ Google ปี 2015) ที่ดูอัลกอริธึม RL สองตัวรวมกับ RNNเพื่อแก้ปัญหา POMDP

คำถามที่ 3: ฉันได้ดู Q-learning ด้วยการเล่นซ้ำประสบการณ์เป็นวิธีแก้ไขปัญหาเกี่ยวกับสภาพแวดล้อมที่ไม่หยุดนิ่งเนื่องจากมันสัมพันธ์กับการปรับปรุงที่ต่อเนื่อง นี่เป็นการใช้วิธีที่ถูกต้องหรือมากกว่านั้นเพื่อจัดการกับการเรียนรู้ข้อมูลที่มีประสิทธิภาพมากขึ้นหรือไม่

การเล่นซ้ำประสบการณ์จะไม่ช่วยให้มีสภาพแวดล้อมที่ไม่อยู่นิ่ง ในความเป็นจริงมันอาจทำให้ประสิทธิภาพแย่ลง อย่างไรก็ตามตามที่ระบุไว้แล้วปัญหาของคุณไม่ได้เกี่ยวกับสภาพแวดล้อมที่ไม่อยู่นิ่ง แต่เกี่ยวกับการจัดการการเปลี่ยนแปลงของรัฐที่ซับซ้อนมากขึ้น

สิ่งที่คุณอาจต้องทำคือดูการประมาณฟังก์ชั่นหากจำนวนสถานะเพิ่มขึ้นเป็นจำนวนมากพอ ตัวอย่างเช่นถ้าคุณต้องการที่จะจัดการใด ๆกลับมาติดตามและมีความซับซ้อนรางวัลการปรับเปลี่ยนกฎที่แทร็คที่ตั้งเข้าชมแต่ละรัฐของคุณแล้วอาจมีการเปลี่ยนแปลงจากหลายสถานที่เดียวที่จะแผนที่แสดงสถานที่ที่ไป ตัวอย่างเช่นมันอาจไปจาก64 รัฐสำหรับ 8×8 กริดโลกเพื่อ 264แผนที่รัฐแสดงสี่เหลี่ยมที่เยี่ยมชม นี่สูงเกินไปที่จะติดตามในตารางค่าดังนั้นโดยทั่วไปคุณจะใช้เครือข่ายประสาท (หรือเครือข่ายประสาทเทียม) เพื่อประเมินค่าสถานะแทน

ด้วยฟังก์ชั่นการประมาณฟังก์ชั่นการเล่นซ้ำมีประโยชน์มากโดยที่ไม่มีกระบวนการเรียนรู้ที่มีแนวโน้มว่าจะไม่เสถียร วิธี DQN ล่าสุดสำหรับการเล่นเกม Atari ใช้การเล่นซ้ำด้วยเหตุนี้


หากสภาพแวดล้อมไม่คงที่คุณจะจัดการกับความจริงที่ว่าในตัวอย่างของโลกกริดการอยู่ในสถานะที่เวลา t = 1 ไม่เหมือนกับการอยู่ในสถานะนั้นที่ t = 2? หากคุณปฏิบัติต่อพวกเขาในฐานะรัฐแยกต่างหากแน่นอนว่ามิติพื้นที่ของรัฐของคุณจะระเบิดขึ้นมา?
ทดลองใช้

@tryingtolearn: จุดทั้งหมดของรัฐมาร์คอฟคือมันรวบรวมรายละเอียดที่สำคัญทั้งหมดว่า MDP จะดำเนินการอย่างไรจากจุดนั้น โดยทั่วไปแล้วจะอยู่ในสถานะที่ t = 1 ไม่แตกต่างจากการอยู่ในสถานะเดียวกันที่ t = 2 ในแง่ของการคาดหวังผลตอบแทนในอนาคตและการเปลี่ยนสถานะในอนาคต หากคุณจบลงด้วยกฎที่ยึดตามค่าของ t ดังนั้นคุณจึงใส่ t เข้าสู่สถานะ สิ่งนี้อาจเกิดขึ้นหากคุณสามารถได้รับรางวัลในทุกขั้นตอน แต่จำนวนเวลามี จำกัด - ตอนนี้จะสิ้นสุดที่ t = 10 เสมอ ในกรณีนี้การรู้ว่าเวลาที่เหลืออยู่ของคุณอาจมีความสำคัญ
Neil Slater

@NeilSlater คุณสามารถขยายความคิด POMDP และ RNN ในคำตอบของคุณได้หรือไม่? พวกเขาฟังดูน่าสนใจ และถ้าเป็นไปได้ให้แหล่งข้อมูลที่เกี่ยวข้องเพราะบางครั้งมันยากที่จะสำรวจวรรณกรรม ฉันไม่ชอบความคิดในการรักษาลำดับของรัฐที่เยี่ยมชมแม้ว่านี่จะเป็นสิ่งเดียวที่ฉันสามารถนึกถึงได้เช่นกันดังนั้นฉันจึงกำลังมองหาตัวเลือกอื่น ๆ แบบจำลองนั้นซับซ้อนเกินไปเนื่องจากฉันต้องแนะนำกฎง่าย ๆ ฉันไม่แน่ใจว่าฉันขาดอะไรที่ชัดเจนมากไปหรือฉันไม่ได้ใช้โมเดลและสูตรที่ถูกต้อง
Voltronika

@NeilSlater สิ่งนี้ช่วยได้ไหมหากใช้สิ่งต่าง ๆ เช่นวิธีการไล่ระดับนโยบาย? ในทางปฏิบัติคุณรู้หรือไม่ว่ามาตรฐานในการแก้ไขปัญหาเหล่านี้คืออะไร
ทดลองใช้

1
@ Voltronika ฉันขยายคำตอบโดยเพิ่มย่อหน้าเกี่ยวกับ POMDP โปรดทราบว่าการกำหนดกรอบปัญหาของคุณในฐานะ POMDP ทำให้การทำงานและแก้ไขทำได้ยากกว่าการขยายสถานะเพื่อรวมหน่วยความจำที่เหมาะสมของสถานที่ที่เยี่ยมชม ดังนั้นฉันขอแนะนำให้คุณดูเพียงว่าการเรียน POMDP เป็นเป้าหมาย
Neil Slater

0

คำถามที่ 1: การเรียนรู้ Q เป็นวิธีการเรียนรู้เสริมแบบออนไลน์ที่ทำงานได้ดีกับสภาพแวดล้อมที่อยู่กับที่ นอกจากนี้ยังอาจใช้กับโมเดลที่ไม่อยู่กับที่ซึ่งมีเงื่อนไขว่าโมเดล (ฟังก์ชันการให้รางวัลและความน่าจะเป็นในการเปลี่ยนแปลง) จะไม่เปลี่ยนแปลงอย่างรวดเร็ว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.