ฟังก์ชันการให้รางวัลใดที่ส่งผลให้เกิดการเรียนรู้ที่ดีที่สุด
ลองนึกถึงสถานการณ์ต่อไปนี้: คุณกำลังสอนหุ่นยนต์ให้เล่นปิงปอง คุณกำลังสอนโปรแกรมเพื่อคำนวณสแควร์รูท คุณกำลังสอนคณิตศาสตร์ให้เด็กในโรงเรียน สถานการณ์เหล่านี้ (เช่นการเรียนรู้ภายใต้การดูแล) และอื่น ๆ อีกมากมายมีสิ่งหนึ่งที่ (เหมือนกัน): ผู้เรียนได้รับรางวัลตามผลงาน คำถามของฉันคือฟังก์ชั่นของรางวัลควรมีลักษณะอย่างไร มีคำตอบที่ "ดีที่สุด" หรือขึ้นอยู่กับสถานการณ์หรือไม่? ถ้ามันขึ้นอยู่กับสถานการณ์หนึ่งจะกำหนดฟังก์ชั่นรางวัลที่จะเลือก? ตัวอย่างเช่นรับฟังก์ชั่นรางวัลสามรายการต่อไปนี้: ฟังก์ชั่นAพูดว่า: ต่ำกว่าจุดหนึ่งไม่ดีหรือแย่ลงเหมือนกัน: คุณไม่ได้อะไรเลย มีความแตกต่างที่ชัดเจนระหว่างเกือบดีและสมบูรณ์แบบ ฟังก์ชั่นBพูดว่า: คุณจะได้รับผลตอบแทนเป็นสัดส่วนตามประสิทธิภาพของคุณ ฟังก์ชั่นCพูดว่า: หากการแสดงของคุณไม่ดีมันก็โอเคคุณทำดีที่สุดแล้ว: คุณยังได้รับรางวัลอยู่บ้าง ไม่มีความแตกต่างระหว่างที่สมบูรณ์แบบและเกือบดี ฉันคิดว่าAจะทำให้หุ่นยนต์มีสมาธิมากและเรียนรู้รูปแบบที่แน่นอน แต่กลายเป็นคนโง่เมื่อต้องรับมือกับรูปแบบที่คล้ายกันในขณะที่Cมันจะสามารถปรับเปลี่ยนได้มากขึ้นด้วยต้นทุนของการสูญเสียความสมบูรณ์แบบ หนึ่งอาจคิดว่าฟังก์ชั่นที่ซับซ้อนมากขึ้นเพียงเพื่อแสดง แต่น้อย: ดังนั้นเราจะรู้ได้อย่างไรว่าควรเลือกฟังก์ชั่นใด เป็นที่รู้จักกันซึ่งพฤติกรรมที่จะโผล่ออกมาจาก (อย่างน้อย) ขั้นพื้นฐานA, BและCฟังก์ชั่น? คำถามข้างเคียงนี้จะแตกต่างกันมากสำหรับหุ่นยนต์และเด็กมนุษย์หรือไม่?