ลองนึกถึงสถานการณ์ต่อไปนี้:
- คุณกำลังสอนหุ่นยนต์ให้เล่นปิงปอง
- คุณกำลังสอนโปรแกรมเพื่อคำนวณสแควร์รูท
- คุณกำลังสอนคณิตศาสตร์ให้เด็กในโรงเรียน
สถานการณ์เหล่านี้ (เช่นการเรียนรู้ภายใต้การดูแล) และอื่น ๆ อีกมากมายมีสิ่งหนึ่งที่ (เหมือนกัน): ผู้เรียนได้รับรางวัลตามผลงาน
คำถามของฉันคือฟังก์ชั่นของรางวัลควรมีลักษณะอย่างไร มีคำตอบที่ "ดีที่สุด" หรือขึ้นอยู่กับสถานการณ์หรือไม่? ถ้ามันขึ้นอยู่กับสถานการณ์หนึ่งจะกำหนดฟังก์ชั่นรางวัลที่จะเลือก?
ตัวอย่างเช่นรับฟังก์ชั่นรางวัลสามรายการต่อไปนี้:
- ฟังก์ชั่น
A
พูดว่า:- ต่ำกว่าจุดหนึ่งไม่ดีหรือแย่ลงเหมือนกัน: คุณไม่ได้อะไรเลย
- มีความแตกต่างที่ชัดเจนระหว่างเกือบดีและสมบูรณ์แบบ
- ฟังก์ชั่น
B
พูดว่า:- คุณจะได้รับผลตอบแทนเป็นสัดส่วนตามประสิทธิภาพของคุณ
- ฟังก์ชั่น
C
พูดว่า:- หากการแสดงของคุณไม่ดีมันก็โอเคคุณทำดีที่สุดแล้ว: คุณยังได้รับรางวัลอยู่บ้าง
- ไม่มีความแตกต่างระหว่างที่สมบูรณ์แบบและเกือบดี
ฉันคิดว่าA
จะทำให้หุ่นยนต์มีสมาธิมากและเรียนรู้รูปแบบที่แน่นอน แต่กลายเป็นคนโง่เมื่อต้องรับมือกับรูปแบบที่คล้ายกันในขณะที่C
มันจะสามารถปรับเปลี่ยนได้มากขึ้นด้วยต้นทุนของการสูญเสียความสมบูรณ์แบบ
หนึ่งอาจคิดว่าฟังก์ชั่นที่ซับซ้อนมากขึ้นเพียงเพื่อแสดง แต่น้อย:
ดังนั้นเราจะรู้ได้อย่างไรว่าควรเลือกฟังก์ชั่นใด เป็นที่รู้จักกันซึ่งพฤติกรรมที่จะโผล่ออกมาจาก (อย่างน้อย) ขั้นพื้นฐานA
, B
และC
ฟังก์ชั่น?
คำถามข้างเคียงนี้จะแตกต่างกันมากสำหรับหุ่นยนต์และเด็กมนุษย์หรือไม่?
A
หุ่นยนต์สามารถทำงานได้ดีมาก ๆ แต่งานที่คล้ายกัน แต่แตกต่างกันเล็กน้อย นั่นเป็นเพียงการคาดเดาของฉัน
X
ให้ผลลัพธ์ที่ดีที่สุดแก่ฉัน" แม้ว่าจะไม่ถูกต้องสมบูรณ์ก็ตาม