ที่นี่คุณมีหนังสืออ้างอิงที่ดี:
คลาสสิก
Sutton RS, Barto AG การเรียนรู้การเสริมแรง: การแนะนำ Cambridge, Mass: หนังสือแบรดฟอร์ด; พ.ศ. 2541 322 หน้า
แบบร่างสำหรับรุ่นที่สองมีให้บริการฟรี: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
รัสเซล / นอร์วิคบทที่ 21:
Russell SJ, Norvig P, Davis E. ปัญญาประดิษฐ์: วิธีการที่ทันสมัย อัปเปอร์แซดเดิลริเวอร์, นิวเจอร์ซีย์: Prentice Hall; 2010
ทางเทคนิคเพิ่มเติม
Szepesvári C. อัลกอริทึมสำหรับการเรียนรู้การเสริมแรง การสังเคราะห์การบรรยายเรื่องปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง 2010 4 (1): 1-103 http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP การเขียนโปรแกรมแบบไดนามิกและการควบคุมที่เหมาะสมที่สุด ฉบับที่ 4 Belmont, Mass: Athena Scientific; พ.ศ. 2550 1270
ตอนที่ 6, vol 2 มีให้บริการฟรี: http://web.mit.edu/dimitrib/www/dpchapter.pdf
สำหรับการพัฒนาล่าสุด
Wiering M, Van Otterlo M, บรรณาธิการ เสริมการเรียนรู้ เบอร์ลิน, ไฮเดลเบิร์ก: สปริงเกอร์เบอร์ลินไฮเดลเบิร์ก; 2012พร้อมใช้งานจาก: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, JP, Reynolds HJD, Thornton JR, et al. การตัดสินใจภายใต้ความไม่แน่นอน: ทฤษฎีและการประยุกต์ 1 ฉบับ Cambridge, Massachusetts: The MIT Press; 2558. 352 น.
การเรียนรู้การเสริมแรงแบบหลายตัวแทน
Buşoniu L, Babuška R, Schutter BD การเรียนรู้การเสริมแรงหลายตัวแทน: ภาพรวม ใน: Srinivasan D, Jain LC, บรรณาธิการ นวัตกรรมในระบบและแอพพลิเคชั่นหลายตัวแทน - 1. ไฮเดลเบิร์กสปริงเกอร์เบอร์ลิน; พ. ศ. 2553 183-221 วางจำหน่ายจาก: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
ชวาร์ตษ์ HM การเรียนรู้เครื่องหลายตัวแทน: วิธีการเสริมแรง โฮโบเคนมลรัฐนิวเจอร์ซีย์: ไวลีย์; 2014
วิดีโอ / หลักสูตร
ฉันขอแนะนำหลักสูตร David Silver ใน YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa