การเรียนรู้การเสริมแรงที่เกิดขึ้นคืออะไร


20

ฉันเพิ่งเจอคำว่า "การเรียนรู้เสริมกำลังกำเริบ" ฉันเข้าใจว่า "เครือข่ายประสาทที่เกิดขึ้นอีก" คืออะไรและ "การเรียนรู้การเสริมแรง" คืออะไร แต่ไม่สามารถหาข้อมูลได้มากนักเกี่ยวกับสิ่งที่

มีคนอธิบายให้ฉันได้ไหมว่า "การเรียนรู้การเสริมแรงแบบเกิดซ้ำ" กับอะไรคือความแตกต่างระหว่าง "การเรียนรู้การเสริมแรงแบบกำเริบ" และสิ่งที่ปกติคือ

คำตอบ:


15

"การเรียนรู้การเสริมแรงกำเริบ" คืออะไร?

การเรียนรู้การเสริมกำลังกำเริบ ( RRL ) เปิดตัวครั้งแรกสำหรับการฝึกอบรมระบบการซื้อขายเครือข่ายประสาทในปี 1996 "กำเริบ" หมายความว่าเอาท์พุทก่อนหน้านี้จะถูกป้อนเข้าแบบจำลองเป็นส่วนหนึ่งของการป้อนข้อมูล ไม่นานมันก็ขยายไปสู่การซื้อขายในตลาด FX

RRLเทคนิคได้รับพบว่ามีเทคนิคการเรียนรู้ของเครื่องที่ประสบความสำเร็จในการสร้างระบบการซื้อขายทางการเงิน

อะไรคือความแตกต่างระหว่าง "การเรียนรู้การเสริมแรงแบบกำเริบ" กับ "การเรียนรู้การเสริมแรงแบบปกติ" (เช่นอัลกอริทึม Q-Learning)

RRLวิธีการที่แตกต่างอย่างเห็นได้ชัดจากการเขียนโปรแกรมแบบไดนามิกและการเสริมแรงขั้นตอนวิธีการเช่นTD-การเรียนรู้และQ-learningซึ่งพยายามที่จะคาดว่าฟังก์ชั่นคุ้มค่าสำหรับปัญหาการควบคุม

RRLกรอบช่วยให้การสร้างง่ายและการเป็นตัวแทนปัญหาสง่างามหลีกเลี่ยงคำสาปยามของมิติและมีข้อได้เปรียบที่น่าสนใจในประสิทธิภาพ:

RRLผลิตการกระทำของมูลค่าที่แท้จริง (น้ำหนักผลงาน) ธรรมชาติโดยไม่ต้องหันไปใช้วิธีการต่อเนื่องในQ-การเรียนรู้

RRLมีประสิทธิภาพที่เสถียรกว่าเมื่อเทียบกับQ-learningเมื่อสัมผัสกับชุดข้อมูลที่มีเสียงดัง อัลกอริทึมQ-learningมีความไวต่อการเลือกฟังก์ชั่นค่า (อาจ) เนื่องจากคุณสมบัติแบบเรียกซ้ำของการเพิ่มประสิทธิภาพแบบไดนามิกในขณะที่อัลกอริทึมRRLมีความยืดหยุ่นในการเลือกฟังก์ชั่นวัตถุประสงค์และประหยัดเวลาในการคำนวณ

ยู()

ที่นี่คุณจะพบกับการใช้ Matlab ของอัลกอริทึม RRL


อ้างอิง

เสริมการเรียนรู้เพื่อการค้า

การเรียนรู้การเสริมแรงสำหรับระบบการซื้อขายและพอร์ตการลงทุน

การซื้อขาย FX ผ่านการเรียนรู้การเสริมแรงที่เกิดขึ้นอีก

การซื้อขายหุ้นกับการเรียนรู้การเสริมแรงแบบกำเริบ (RRL)

การซื้อขายอัลกอริทึมโดยใช้การเรียนรู้แบบ Q-Learning และการเรียนรู้การเสริมแรงที่เกิดขึ้นอีก

สำรวจ ALGORITHMS สำหรับการซื้อขาย FX อัตโนมัติ - การสร้างแบบจำลองไฮบริด


@AntonDanilov ฉันไม่แน่ใจว่าคุณรู้เรื่องนี้หรือไม่ คนที่คิดไอเดียนี้ (ผู้อ้างอิงคนแรกของคุณเจมู้ดดี้) ได้ใช้เงินทุนโดยใช้อัลโกนี้ - และการแสดงของเขาก็ยังห่างไกลจากความตื่นเต้น
horaceT

เป็นเรื่องที่ดีที่จะรู้ แต่วิธีการตอบโต้การเปลี่ยนแปลง
Anton Danilov

2

ความแตกต่างของ (ลึก) กำเริบ RL คือว่าฟังก์ชั่นการทำแผนที่การสังเกตตัวแทนการกระทำของเอาท์พุทเป็นเครือข่ายประสาทเทียม

Recurrent Neural Network เป็นประเภทของโครงข่ายประสาทที่ประมวลผลการสังเกตแต่ละครั้งตามลำดับเช่นเดียวกับแต่ละขั้นตอน

กระดาษต้นฉบับ: Q-Learning ที่เกิดขึ้นซ้ำลึกสำหรับ MDP ที่สังเกตได้บางส่วน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.