ฟังก์ชั่นรางวัลอธิบายถึงวิธีการที่ตัวแทน "ควร" ทำงาน กล่าวอีกนัยหนึ่งพวกเขามีเนื้อหา "ปกติ" กำหนดสิ่งที่คุณต้องการตัวแทนเพื่อให้บรรลุ ตัวอย่างเช่นบางรัฐที่คุ้มค่าsอาจหมายถึงรสชาติของอาหาร หรือบางที(s,a)อาจเป็นตัวแทนของการชิมอาหาร ดังนั้นในกรณีที่ฟังก์ชั่นของรางวัลเป็นตัวกำหนดว่าแรงจูงใจของตัวแทนคืออะไรคุณต้องสร้างมันขึ้นมา!
ไม่มีข้อ จำกัด แน่นอน แต่หากฟังก์ชันการให้รางวัลของคุณคือ "ประพฤติดีขึ้น" ตัวแทนจะเรียนรู้ได้ดีขึ้น ในทางปฏิบัตินี่หมายถึงความเร็วของการลู่เข้าและไม่ติดค้างในจุดต่ำสุดของท้องถิ่น แต่ข้อกำหนดเพิ่มเติมจะขึ้นอยู่กับชนิดของการเรียนรู้การเสริมแรงที่คุณใช้ ตัวอย่างเช่นพื้นที่รัฐ / การดำเนินการต่อเนื่องหรือไม่ต่อเนื่อง? โลกหรือการเลือกการกระทำสุ่ม? รางวัลจะถูกเก็บเกี่ยวอย่างต่อเนื่องหรือในตอนท้ายเท่านั้น?
วิธีหนึ่งในการดูปัญหาคือฟังก์ชันการให้รางวัลจะกำหนดความแข็งของปัญหา ตัวอย่างเช่นตามเนื้อผ้าเราอาจระบุให้รัฐเดี่ยวได้รับรางวัล:
R ( s1) = 1
R ( s2 .. n) = 0
ในกรณีนี้ปัญหาที่จะแก้ไขนั้นค่อนข้างยากเมื่อเทียบกับ พูด, R ( sผม) = 1 / i2 , ซึ่งมีการไล่ระดับรางวัลเหนือรัฐ สำหรับปัญหาที่ยากให้ระบุรายละเอียดเพิ่มเติมเช่นR ( s , a )หรือR ( s , a , s')สามารถช่วยอัลกอริทึมบางอย่างโดยการให้เบาะแสเพิ่มเติม แต่อาจมีค่าใช้จ่ายในการสำรวจเพิ่มเติม คุณอาจต้องรวมค่าใช้จ่ายเป็นเงื่อนไขเชิงลบในR (เช่นค่าใช้จ่ายที่มีพลัง) เพื่อให้ปัญหาได้รับการระบุอย่างดี
สำหรับกรณีของสภาพพื้นที่อย่างต่อเนื่องถ้าคุณต้องการตัวแทนในการเรียนรู้ได้อย่างง่ายดาย, ฟังก์ชั่นรางวัลที่ควรจะเป็นอย่างต่อเนื่องและอนุพันธ์ ดังนั้นชื่อพหุนามสามารถทำงานได้ดีกับอัลกอริทึมมากมาย เพิ่มเติมลองลบ minima ที่แปลแล้ว มีจำนวนเป็นตัวอย่างของวิธีการที่ไม่ได้ที่จะทำให้การทำงานของรางวัลที่ชอบ - ฟังก์ชั่น Rastrigin ต้องบอกว่านี่คืออัลกอริทึม RL หลายประการ (เช่นเครื่อง Boltzmann ) ค่อนข้างแข็งแกร่งสำหรับสิ่งเหล่านี้
หากคุณกำลังใช้ชีวิตในการแก้ปัญหาโลกแห่งความจริงที่คุณอาจจะพบว่าแม้จะหาฟังก์ชั่นได้รับรางวัลเป็นส่วนที่ยากที่สุดของปัญหาก็จะเชื่อมโยงอย่างใกล้ชิดขึ้นมาด้วยวิธีการที่คุณระบุสภาพพื้นที่ ตัวอย่างเช่นในปัญหาที่ขึ้นกับเวลาระยะทางไปยังเป้าหมายมักจะทำให้ฟังก์ชั่นการให้รางวัลไม่ดี (เช่นในปัญหาของรถบนภูเขา ) สถานการณ์ดังกล่าวสามารถแก้ไขได้โดยใช้ช่องว่างสถานะมิติที่สูงขึ้น (สถานะที่ซ่อนอยู่หรือร่องรอยหน่วยความจำ) หรือโดย RL แบบลำดับชั้น
ในระดับนามธรรมการเรียนรู้ที่ไม่ได้รับการดูแลควรจะหลีกเลี่ยงการกำหนดประสิทธิภาพที่ "ถูกและผิด" แต่เราสามารถเห็นได้ว่า RL เพียงแค่เปลี่ยนความรับผิดชอบจากครู / นักวิจารณ์ไปยังฟังก์ชันการให้รางวัล นั่นคือการ: มีวิธีที่วงกลมน้อยในการแก้ปัญหาคือการสรุปการทำงานของรางวัลที่ดีที่สุด วิธีการหนึ่งเรียกว่าinverse RL หรือ "apprenticeship learning"ซึ่งสร้างฟังก์ชั่นการให้รางวัลซึ่งจะสร้างพฤติกรรมที่สังเกตได้ การหาฟังก์ชั่นการให้รางวัลที่ดีที่สุดในการทำซ้ำชุดการสังเกตสามารถทำได้โดยวิธี MLE, Bayesian, หรือข้อมูลเชิงทฤษฎี - หากคุณ google สำหรับ "การเรียนรู้การเสริมแรงแบบผกผัน"