1
เมื่อใดที่ฉันควรใช้การเรียนรู้เสริมแรงเทียบกับการควบคุมแบบ PID
เมื่อออกแบบวิธีการแก้ปัญหาเช่น Lunar Lander บนOpenAIGymการเรียนรู้การเสริมแรงเป็นวิธีการล่อลวงให้ตัวแทนควบคุมการกระทำที่เพียงพอเพื่อที่จะประสบความสำเร็จในการลงจอด แต่อินสแตนซ์ใดบ้างที่อัลกอริทึมของระบบควบคุมเช่นตัวควบคุม PIDจะทำงานได้อย่างเพียงพอหากไม่ดีกว่าการเสริมแรงการเรียนรู้ คำถามเช่นนี้ทำหน้าที่ได้ดีในการจัดการกับทฤษฎีของคำถามนี้ แต่ทำเพียงเล็กน้อยที่จะกล่าวถึงส่วนประกอบที่ใช้งานได้จริง ในฐานะวิศวกรด้านปัญญาประดิษฐ์องค์ประกอบของโดเมนปัญหาควรแนะนำให้ฉันรู้ว่าตัวควบคุม PID ไม่เพียงพอที่จะแก้ปัญหาและอัลกอริทึมการเรียนรู้การเสริมกำลังควรใช้แทน (หรือในทางกลับกัน)