หนังสือเรียนเสริมการเรียนรู้


12

ฉันกำลังมองหาหนังสือเรียน / บันทึกการบรรยายในการเสริมแรงการเรียนรู้ ฉันชอบ"รู้เบื้องต้นเกี่ยวกับสถิติการเรียนรู้"แต่น่าเสียดายที่พวกเขาไม่ครอบคลุมหัวข้อนี้ ฉันรู้ว่าหนังสือของ Sutton และ Bartoเป็นหนังสืออ้างอิงมาตรฐานและบางทีNDPก็ดีเช่นกัน แต่พวกเขาก็ลงวันที่ 1997-98 และฉันหวังว่าจะพบงานนิทรรศการที่ทันสมัยมากขึ้นเนื่องจากสาขานี้น่าจะมีการพัฒนาค่อนข้างเร็ว เวลา.

คำตอบ:


15

ฉันคิดว่า Sutton และ Barto ยังคงเป็นมาตรฐาน มีสไลด์เดอร์และโน้ตมากมายจากคลาส AI ทางออนไลน์ แต่โดยทั่วไปแล้วจะไม่ได้ลงรายละเอียดมากเกินไป

Sutton และ Barto อายุน้อย แต่พวกเขากำลังเตรียมตำราเรียนฉบับที่ 2 ร่างลงวันที่มกราคม 2018 มีอยู่ที่นี่ ; มันเชื่อมโยงจากหน้าเว็บของ Sutton ซึ่งมีข้อความฉบับเต็มของฉบับพิมพ์ครั้งแรก

ฉันจะดูที่นี้ก่อนที่จะแก้ปัญหา Kochenderfer et al. ของการตัดสินใจภายใต้ความไม่แน่นอน หนังสือเล่มนั้นมีแอปพลิเคชั่นที่น่าสนใจ (ส่วนใหญ่อยู่ในสายการบิน) แต่มันเคลื่อนที่อย่างรวดเร็วและกระเด้งไปมามาก อัลกอริทึมของSzepesvári สำหรับการเสริมแรงการเรียนรู้ก็ดี แต่มีสาระสำคัญ - ใช้เวลาประมาณยี่สิบหน้าในการไปที่ , กับเจ็ด chapers และ 150 หน้าใน Sutton และ Barto ที่ใหม่กว่าTD(λ)

นอกเหนือจากนั้นคุณอาจลองดำน้ำในเอกสาร - การเรียนรู้การเสริมกำลังมีแนวโน้มที่จะสามารถเข้าถึงได้


ขอบคุณฉันดูที่ฉบับใหม่ แต่ฉันจะไม่บอกว่ามันมีการปรับปรุงมากนัก ฉันยังสนใจที่จะได้รับข้อมูลล่าสุด
Ulysses

ใช่มันไม่ใช่การยกเครื่องที่สมบูรณ์ แต่ไม่มีอะไรอื่นที่จะนึกถึงนอกจากหนังสือ "Lecture Notes" ของ Springer บางเล่มซึ่งเป็นเพียงแค่ชุดของเอกสาร หากคุณพบสิ่งอื่นโปรดโพสต์การอัปเดต ฉันชอบที่จะตรวจสอบมันออกมา
Matt Krause

ฉันแน่ใจว่าฉันจะทำ
ยูลิสซิส

1
@ CharlieParker ฉันไม่แน่ใจ ร่างล่าสุด (19 มิถุนายน 2560) ดูค่อนข้างสมบูรณ์และกล่าวถึง MIT Press แต่เว็บไซต์ของ MIT Press ดูเหมือนจะขายรุ่นแรกยัง สำหรับสิ่งที่คุ้มค่าร่างนี้มาจากเว็บไซต์สาธารณะของผู้เขียนโดยตรงดังนั้นจึงไม่จำเป็นต้องกังวลเกี่ยวกับการใช้รุ่น "รั่วไหล" หรืออะไรทำนองนั้น
Matt Krause

1
@ โทมัสฉันอัพเดทลิงค์ด้วยร่างใหม่
Matt Krause

6

คุณอาจต้องการตรวจสอบอัลกอริทึมสำหรับการเสริมแรงการเรียนรู้โดย Csaba Szepesváriตีพิมพ์ในปี 2010 PDF สามารถดาวน์โหลดได้จากเว็บไซต์ ในความคิดของฉันมันเป็นเทคนิคมากกว่า Sutton และ Barto แต่ครอบคลุมเนื้อหาน้อยกว่า


6

ที่นี่คุณมีหนังสืออ้างอิงที่ดี:

คลาสสิก

Sutton RS, Barto AG การเรียนรู้การเสริมแรง: การแนะนำ Cambridge, Mass: หนังสือแบรดฟอร์ด; พ.ศ. 2541 322 หน้า

แบบร่างสำหรับรุ่นที่สองมีให้บริการฟรี: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

รัสเซล / นอร์วิคบทที่ 21:

Russell SJ, Norvig P, Davis E. ปัญญาประดิษฐ์: วิธีการที่ทันสมัย อัปเปอร์แซดเดิลริเวอร์, นิวเจอร์ซีย์: Prentice Hall; 2010

ทางเทคนิคเพิ่มเติม

Szepesvári C. อัลกอริทึมสำหรับการเรียนรู้การเสริมแรง การสังเคราะห์การบรรยายเรื่องปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง 2010 4 (1): 1-103 http://www.ualberta.ca/~szepesva/RLBook.html

Bertsekas DP การเขียนโปรแกรมแบบไดนามิกและการควบคุมที่เหมาะสมที่สุด ฉบับที่ 4 Belmont, Mass: Athena Scientific; พ.ศ. 2550 1270 ตอนที่ 6, vol 2 มีให้บริการฟรี: http://web.mit.edu/dimitrib/www/dpchapter.pdf

สำหรับการพัฒนาล่าสุด

Wiering M, Van Otterlo M, บรรณาธิการ เสริมการเรียนรู้ เบอร์ลิน, ไฮเดลเบิร์ก: สปริงเกอร์เบอร์ลินไฮเดลเบิร์ก; 2012พร้อมใช้งานจาก: http://link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ, Amato C, Chowdhary G, JP, Reynolds HJD, Thornton JR, et al. การตัดสินใจภายใต้ความไม่แน่นอน: ทฤษฎีและการประยุกต์ 1 ฉบับ Cambridge, Massachusetts: The MIT Press; 2558. 352 น.

การเรียนรู้การเสริมแรงแบบหลายตัวแทน

Buşoniu L, Babuška R, Schutter BD การเรียนรู้การเสริมแรงหลายตัวแทน: ภาพรวม ใน: Srinivasan D, Jain LC, บรรณาธิการ นวัตกรรมในระบบและแอพพลิเคชั่นหลายตัวแทน - 1. ไฮเดลเบิร์กสปริงเกอร์เบอร์ลิน; พ. ศ. 2553 183-221 วางจำหน่ายจาก: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7

ชวาร์ตษ์ HM การเรียนรู้เครื่องหลายตัวแทน: วิธีการเสริมแรง โฮโบเคนมลรัฐนิวเจอร์ซีย์: ไวลีย์; 2014

วิดีโอ / หลักสูตร

ฉันขอแนะนำหลักสูตร David Silver ใน YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa


3

บันทึกการบรรยายที่ฉันโปรดปรานเกี่ยวกับการเรียนรู้การเสริมกำลังเป็นสิ่งที่ Andrew Ng ในหลักสูตรของ Stanford ใน ML CS229:

บันทึกการเรียนรู้การฟื้นฟูสภาพ Stanford CS229

คุณสามารถดาวน์โหลดวิดีโอบรรยายบน iTunes หรือบน youtube พวกเขาเริ่มต้นในลิงค์ต่อไปนี้:

การบรรยายครั้งที่ 16 CS229

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.