เมื่อออกแบบวิธีการแก้ปัญหาเช่น Lunar Lander บนOpenAIGymการเรียนรู้การเสริมแรงเป็นวิธีการล่อลวงให้ตัวแทนควบคุมการกระทำที่เพียงพอเพื่อที่จะประสบความสำเร็จในการลงจอด
แต่อินสแตนซ์ใดบ้างที่อัลกอริทึมของระบบควบคุมเช่นตัวควบคุม PIDจะทำงานได้อย่างเพียงพอหากไม่ดีกว่าการเสริมแรงการเรียนรู้
คำถามเช่นนี้ทำหน้าที่ได้ดีในการจัดการกับทฤษฎีของคำถามนี้ แต่ทำเพียงเล็กน้อยที่จะกล่าวถึงส่วนประกอบที่ใช้งานได้จริง
ในฐานะวิศวกรด้านปัญญาประดิษฐ์องค์ประกอบของโดเมนปัญหาควรแนะนำให้ฉันรู้ว่าตัวควบคุม PID ไม่เพียงพอที่จะแก้ปัญหาและอัลกอริทึมการเรียนรู้การเสริมกำลังควรใช้แทน (หรือในทางกลับกัน)