ปัญหาของการเป็นตัวแทนของรัฐในการเรียนรู้เสริม (RL) คล้ายกับปัญหาของการเป็นตัวแทนคุณลักษณะการเลือกคุณสมบัติและวิศวกรรมคุณสมบัติในการเรียนรู้แบบมีผู้สอนหรือไม่ได้รับการดูแล
วรรณกรรมที่สอนพื้นฐานของ RL มีแนวโน้มที่จะใช้สภาพแวดล้อมที่ง่ายมากเพื่อให้ระบุสถานะทั้งหมด สิ่งนี้ทำให้การประมาณค่าง่ายขึ้นในค่าเฉลี่ยการหมุนพื้นฐานในตารางซึ่งง่ายต่อการเข้าใจและนำไปใช้ อัลกอริธึมการเรียนรู้แบบตารางยังมีการรับประกันทางทฤษฎีที่สมเหตุสมผลเกี่ยวกับการลู่เข้าซึ่งหมายความว่าถ้าคุณสามารถทำให้ปัญหาของคุณง่ายขึ้นเพื่อที่จะให้พูดน้อยกว่าสองสามล้านรัฐ
ปัญหาการควบคุมที่น่าสนใจส่วนใหญ่จะไม่เข้ากับสถานะของจำนวนนั้นแม้ว่าคุณจะแยกแยะพวกเขา นี่คือสาเหตุที่ " คำสาปของมิติ " สำหรับปัญหาเหล่านั้นโดยทั่วไปคุณจะแสดงสถานะของคุณเป็นเวกเตอร์ที่มีคุณสมบัติที่แตกต่างกันเช่นสำหรับหุ่นยนต์ตำแหน่งต่าง ๆ มุมความเร็วของชิ้นส่วนเครื่องจักร เช่นเดียวกับการเรียนรู้ภายใต้การดูแลคุณอาจต้องการจัดการสิ่งเหล่านี้เพื่อใช้กับกระบวนการเรียนรู้ที่เฉพาะเจาะจง ตัวอย่างเช่นโดยทั่วไปคุณจะต้องการให้พวกเขาทั้งหมดเป็นตัวเลขและหากคุณต้องการใช้เครือข่ายประสาทคุณควรทำให้มาตรฐานเป็นช่วงมาตรฐาน (เช่น -1 ถึง 1)
นอกเหนือจากข้อกังวลข้างต้นซึ่งใช้กับการเรียนรู้ของเครื่องอื่น ๆ สำหรับ RL คุณยังต้องเกี่ยวข้องกับMarkov Property - ว่ารัฐให้ข้อมูลเพียงพอเพื่อให้คุณสามารถทำนายผลตอบแทนที่คาดหวังต่อไปและสถานะถัดไปได้อย่างแม่นยำ โดยไม่จำเป็นต้องมีข้อมูลเพิ่มเติมใด ๆ สิ่งนี้ไม่จำเป็นต้องสมบูรณ์แบบแตกต่างกันเล็กน้อยเนื่องจากเช่นความหลากหลายของความหนาแน่นของอากาศหรืออุณหภูมิสำหรับหุ่นยนต์ที่มีล้อเลื่อนมักจะไม่ส่งผลกระทบอย่างใหญ่หลวงต่อการนำทางและสามารถเพิกเฉยได้ ปัจจัยใดก็ตามที่เป็นหลักสุ่มสามารถละเว้นได้ในขณะที่ยึดทฤษฎี RL - มันอาจทำให้ตัวแทนโดยรวมที่ดีที่สุดน้อยลง แต่ทฤษฎีจะยังคงทำงาน
หากมีปัจจัยที่ไม่รู้จักที่สอดคล้องกันซึ่งมีผลต่อผลลัพธ์และสามารถสรุปได้อย่างมีเหตุผล - อาจมาจากประวัติของรัฐหรือการกระทำ - แต่คุณได้แยกพวกเขาออกจากการเป็นตัวแทนของรัฐแล้วคุณอาจมีปัญหาร้ายแรงมากขึ้น .
เป็นมูลค่า noting ความแตกต่างที่นี่ระหว่างการสังเกตและรัฐ การสังเกตคือข้อมูลบางอย่างที่คุณสามารถรวบรวมได้ เช่นคุณอาจมีเซ็นเซอร์บนหุ่นยนต์ของคุณที่ดึงกลับตำแหน่งของข้อต่อ เนื่องจากรัฐควรมีทรัพย์สินมาร์คอฟการสังเกตแบบดิบครั้งเดียวอาจมีข้อมูลไม่เพียงพอที่จะทำให้เป็นสถานะที่เหมาะสม หากเป็นกรณีนี้คุณสามารถใช้ความรู้โดเมนของคุณเพื่อสร้างสถานะที่ดีขึ้นจากข้อมูลที่มีอยู่หรือคุณสามารถลองใช้เทคนิคที่ออกแบบมาสำหรับMDPs ที่สังเกตได้บางส่วน (POMDP)ซึ่งเป็นส่วนที่พยายามสร้างส่วนข้อมูลรัฐที่หายไป สถิติ คุณสามารถใช้ RNN หรือโมเดลมาร์คอฟที่ซ่อนอยู่ (เรียกอีกอย่างว่า "ความเชื่อของรัฐ") สำหรับสิ่งนี้และในบางวิธีที่ใช้ "การเรียนรู้หรืออัลกอริทึมการจำแนกเพื่อ "เรียนรู้" สถานะเหล่านั้น "ตามที่คุณถาม
สุดท้ายคุณต้องพิจารณาประเภทของตัวแบบการประมาณที่คุณต้องการใช้ วิธีการที่คล้ายกันนี้ใช้สำหรับการเรียนรู้แบบมีผู้สอน:
การถดถอยเชิงเส้นอย่างง่ายพร้อมฟีเจอร์ที่สร้างขึ้นบนพื้นฐานความรู้ของโดเมนสามารถทำได้ดีมาก คุณอาจต้องทำงานอย่างหนักเพื่อลองใช้การรับรองสถานะที่แตกต่างกันเพื่อให้การประมาณเชิงเส้นทำงานได้ ข้อดีคือวิธีการที่เรียบง่ายนี้มีความทนทานต่อปัญหาด้านความมั่นคงมากกว่าการประมาณแบบไม่เชิงเส้น
ตัวประมาณฟังก์ชั่นที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้นเช่นเครือข่ายประสาทหลายชั้น คุณสามารถป้อนในเวกเตอร์สถานะ "ดิบ" เพิ่มเติมและหวังว่าเลเยอร์ที่ซ่อนอยู่จะพบโครงสร้างหรือการแสดงบางอย่างที่นำไปสู่การประมาณการที่ดี ในบางวิธีสิ่งนี้ก็คือ " อัลกอริทึมการเรียนรู้หรือการจำแนกประเภทเพื่อ" เรียนรู้ "สถานะเหล่านั้น " แต่ในวิธีที่ต่างไปจาก RNN หรือ HMM นี่อาจเป็นวิธีที่เหมาะสมหากรัฐของคุณแสดงเป็นภาพหน้าจอโดยธรรมชาติ - การหาวิศวกรรมคุณสมบัติสำหรับข้อมูลภาพด้วยมือนั้นยากมาก
การทำงานของ Atari DQN โดยทีมDeepMindใช้การผสมผสานระหว่างคุณสมบัติทางวิศวกรรมและใช้เครือข่ายระบบประสาทในระดับลึกเพื่อให้ได้ผลลัพธ์ คุณสมบัติของวิศวกรรมรวมถึงการสุ่มตัวอย่างภาพลดระดับสีเทาและ - ที่สำคัญสำหรับทรัพย์สินมาร์คอฟ - ใช้สี่เฟรมต่อเนื่องเพื่อเป็นตัวแทนของรัฐเดียวดังนั้นข้อมูลเกี่ยวกับความเร็วของวัตถุที่อยู่ในการเป็นตัวแทนของรัฐ จากนั้น DNN ประมวลผลภาพให้เป็นคุณสมบัติระดับสูงที่สามารถใช้ในการคาดการณ์เกี่ยวกับค่าสถานะ