ดูเหมือนว่าคำจำกัดความของการเรียนรู้แบบมีผู้เรียนเป็นส่วนหนึ่งของการเรียนรู้การเสริมแรงโดยมีฟังก์ชั่นการให้รางวัลประเภทหนึ่งซึ่งอยู่บนพื้นฐานของข้อมูลที่ติดฉลาก (ตรงข้ามกับข้อมูลอื่น ๆ ในสภาพแวดล้อม) นี่เป็นภาพที่ถูกต้องหรือไม่?
ดูเหมือนว่าคำจำกัดความของการเรียนรู้แบบมีผู้เรียนเป็นส่วนหนึ่งของการเรียนรู้การเสริมแรงโดยมีฟังก์ชั่นการให้รางวัลประเภทหนึ่งซึ่งอยู่บนพื้นฐานของข้อมูลที่ติดฉลาก (ตรงข้ามกับข้อมูลอื่น ๆ ในสภาพแวดล้อม) นี่เป็นภาพที่ถูกต้องหรือไม่?
คำตอบ:
เป็นความจริงที่ว่าปัญหาการเรียนรู้แบบมีผู้สอนใด ๆ สามารถสร้างเป็นปัญหาการเรียนรู้เสริมที่เทียบเท่าได้: ให้รัฐสอดคล้องกับข้อมูลอินพุต ให้การกระทำสอดคล้องกับการคาดการณ์ของผลลัพธ์ กำหนดรางวัลเป็นค่าลบของฟังก์ชันการสูญเสียที่ใช้สำหรับการเรียนรู้แบบมีผู้สอน คาดหวังผลตอบแทนสูงสุด ในทางตรงกันข้ามปัญหาการเรียนรู้การเสริมแรงนั้นโดยทั่วไปไม่สามารถนำมาเป็นปัญหาการเรียนรู้แบบมีผู้สอนได้ ดังนั้นจากมุมมองนี้ปัญหาการเรียนรู้แบบมีผู้สอนเป็นส่วนหนึ่งของปัญหาการเรียนรู้เสริมแรง
แต่การพยายามแก้ปัญหาการเรียนรู้แบบมีผู้สอนโดยใช้อัลกอริธึมการเรียนรู้เสริมทั่วไปจะไม่มีประโยชน์ ทั้งหมดนี้ก็คือการทิ้งโครงสร้างที่จะทำให้ปัญหาง่ายขึ้นในการแก้ไข ปัญหาต่าง ๆ เกิดขึ้นในการเรียนรู้เสริมที่ไม่เกี่ยวข้องกับการเรียนรู้แบบมีผู้สอน และการเรียนรู้แบบมีผู้สอนจะได้ประโยชน์จากวิธีการที่ไม่ได้ใช้ในการเรียนรู้เสริมทั่วไป ดังนั้นแม้ว่าจะมีหลักการพื้นฐานที่ใช้กันทั่วไปและเทคนิคที่ใช้ร่วมกันระหว่างสาขา แต่ก็ไม่มีใครเห็นว่าการเรียนรู้ภายใต้การดูแลเป็นรูปแบบหนึ่งของการเรียนรู้เสริม
อ้างอิง
Barto และ Dietterich (2004) การเรียนรู้เสริมและความสัมพันธ์กับการเรียนรู้แบบมีผู้สอน