สามารถใช้การเรียนรู้การเสริมแรงสำหรับการพยากรณ์อนุกรมเวลาได้หรือไม่?

time-series reinforcement-learning forecasting

arxiv.org/ftp/arxiv/papers/1803/1803.03916.pdf

— Enrique Pérez Herrero

ใช่ แต่โดยทั่วไปแล้วมันไม่ได้เป็นเครื่องมือที่ดีสำหรับงานเว้นแต่จะมีข้อเสนอแนะที่สำคัญระหว่างการทำนายและพฤติกรรมที่ต่อเนื่องของระบบ

ในการสร้างปัญหาการเรียนรู้การเสริมแรง (RL) ที่คุ้มค่าโดยใช้การทำนาย RL หรืออัลกอริทึมการควบคุมจากนั้นคุณต้องระบุองค์ประกอบบางอย่าง:

สภาพแวดล้อมที่เป็นหนึ่งในหลายรัฐที่สามารถวัด / ข้อสังเกตในลำดับที่
ตัวแทนที่สามารถสังเกตเห็นในปัจจุบันรัฐและใช้เวลาการดำเนินการในลำดับเดียวกัน
วิวัฒนาการของรัฐในลำดับควรขึ้นอยู่กับการรวมกันของสถานะปัจจุบันและการดำเนินการและอาจสุ่ม
ควรมีสัญญาณรางวัลที่ตัวแทน RL สามารถสังเกตหรือวัดได้ มูลค่าของรางวัลควรขึ้นอยู่กับปัจจัยเดียวกับวิวัฒนาการของรัฐ แต่ขึ้นอยู่กับพวกเขาในวิธีที่แตกต่าง

กรณีทั่วไปของการพยากรณ์อนุกรมเวลาสามารถทำได้เพื่อให้สอดคล้องกับสิ่งนี้โดยการทำนายการกระทำว่าการกระทำมีวิวัฒนาการของรัฐขึ้นอยู่กับสถานะปัจจุบันเท่านั้น (รวมถึงการสุ่ม) และรางวัลขึ้นอยู่กับรัฐและการกระทำ สิ่งนี้จะช่วยให้ RL สามารถใช้งานได้ แต่เวรกรรมจะไหลทางเดียวเท่านั้น - จากสภาพแวดล้อมไปสู่แบบจำลองการทำนายของคุณ ดังนั้นสิ่งที่ดีที่สุดที่คุณสามารถทำได้สำหรับรางวัลเช่นใช้ตัวชี้วัดบางอย่างเกี่ยวกับความถูกต้องของการทำนาย ผลที่ตามมาสำหรับการทำนายที่ดีหรือไม่ดีจะไม่ส่งผลกระทบต่อสภาพแวดล้อมดั้งเดิม โดยพื้นฐานแล้วคุณจะต้องปิดตัวแบบการทำนายบางอย่างสำหรับลำดับ (เช่นเครือข่ายประสาท) ในเลเยอร์ RL ซึ่งสามารถแทนที่ได้อย่างง่ายดายด้วยชุดข้อมูลพื้นฐานสำหรับการจัดการปัญหาการเรียนรู้แบบมีผู้สอน

วิธีหนึ่งที่คุณสามารถขยายปัญหาการพยากรณ์อนุกรมเป็นปัญหา RL คือการเพิ่มขอบเขตของสภาพแวดล้อมเพื่อรวมการตัดสินใจตามการคาดการณ์และสถานะของระบบที่ได้รับผลกระทบจากการตัดสินใจเหล่านั้น ตัวอย่างเช่นหากคุณคาดการณ์ราคาหุ้นให้รวมพอร์ตการลงทุนและกองทุนของคุณในสถานะ ในทำนองเดียวกันการกระทำที่หยุดการคาดการณ์กลายเป็นคำสั่งซื้อและขาย สิ่งนี้จะไม่ปรับปรุงองค์ประกอบการคาดการณ์ราคา (และคุณน่าจะถือว่าเป็นปัญหาแยกต่างหากโดยใช้เครื่องมือที่เหมาะสมกว่า - เช่น LSTM) แต่จะทำให้ปัญหาโดยรวมเป็นปัญหา RL

— Neil Slater
แหล่งที่มา