เมื่อใดที่ฉันควรใช้การเรียนรู้เสริมแรงเทียบกับการควบคุมแบบ PID


12

เมื่อออกแบบวิธีการแก้ปัญหาเช่น Lunar Lander บนOpenAIGymการเรียนรู้การเสริมแรงเป็นวิธีการล่อลวงให้ตัวแทนควบคุมการกระทำที่เพียงพอเพื่อที่จะประสบความสำเร็จในการลงจอด

แต่อินสแตนซ์ใดบ้างที่อัลกอริทึมของระบบควบคุมเช่นตัวควบคุม PIDจะทำงานได้อย่างเพียงพอหากไม่ดีกว่าการเสริมแรงการเรียนรู้

คำถามเช่นนี้ทำหน้าที่ได้ดีในการจัดการกับทฤษฎีของคำถามนี้ แต่ทำเพียงเล็กน้อยที่จะกล่าวถึงส่วนประกอบที่ใช้งานได้จริง

ในฐานะวิศวกรด้านปัญญาประดิษฐ์องค์ประกอบของโดเมนปัญหาควรแนะนำให้ฉันรู้ว่าตัวควบคุม PID ไม่เพียงพอที่จะแก้ปัญหาและอัลกอริทึมการเรียนรู้การเสริมกำลังควรใช้แทน (หรือในทางกลับกัน)


แนวคิดพื้นฐานที่ฉันมีเกี่ยวกับ PID บอกว่ามันไม่ง่ายในการออกแบบ มีอินทิเกรตและดิฟเฟอเรนเชียลที่เกี่ยวข้องมากมาย ดังนั้นนี่เป็นแนวคิดเดียวกับเมื่อคุณแทนที่สถิติด้วยวิธี ML ระบบควบคุมนั้นไร้ที่ติอย่างแน่นอน แต่มันทำงานได้มากเกินไป
DuttaA

2
อันที่จริงมันไม่ได้ทำงานมากเกินไปเป็นมาตรฐานที่ค่อนข้างดีในอุตสาหกรรมโดยใช้เครื่องมือออกแบบระบบที่ทันสมัยเช่น MATLAB คุณสามารถปรับแต่ง PID หรือคอนโทรลเลอร์อื่น ๆ ได้ค่อนข้างง่ายเพื่อตอบสนองความต้องการของคุณ การเรียนรู้การเสริมแรงนั้นไม่ได้ถูกนำไปใช้ในทางปฏิบัติเนื่องจากมันต้องการข้อมูลจำนวนมากและไม่มีการประกันทางทฤษฎีเหมือนกับทฤษฎีการควบคุมแบบดั้งเดิม โดยวิธีการออกแบบ contoller ไม่เกี่ยวข้องกับการทำงานโดยตรงกับอินทิกรัล /
ดิฟเฟอเรนเชียล

@Brale_ แต่มันยังเกี่ยวข้องกับความรู้เชิงทฤษฎีจำนวนมาก .. ตำแหน่งของโดเมนช่วยให้การสร้างความแตกต่างง่ายขึ้น แต่คุณจำเป็นต้องรู้วิธีการออกแบบสิ่งต่าง ๆ (เสาและศูนย์) เพื่อให้ระบบไม่เสถียร มันค่อนข้างยากที่จะเห็นภาพว่าสิ่งเหล่านั้นใช้งานได้จริงอย่างไร
DuttaA

2
เป็นกฎง่ายๆที่ช่วยให้ฉันในโครงการที่ผ่านมาถ้าคุณไม่สามารถอธิบายอธิบายนโยบายที่ดีที่สุด (PID, RL หรืออื่น ๆ ) ในประโยคไม่กี่ PIDs จะยากจริงๆ นโยบายที่ดีที่สุดสำหรับ Pacman คืออะไร
Jaden Travnik

คำตอบ:


5

ฉันคิดว่าความคิดเห็นนั้นถูกต้องแล้ว

ตัวควบคุม PID มีประโยชน์สำหรับการค้นหานโยบายที่ดีที่สุดในระบบพลวัตแบบต่อเนื่องและบ่อยครั้งที่โดเมนเหล่านี้ยังใช้เป็นมาตรฐานสำหรับ RL เนื่องจากมีนโยบายที่ดีที่สุดที่ได้มาอย่างง่ายดาย อย่างไรก็ตามในทางปฏิบัติคุณจะต้องการตัวควบคุม PID อย่างชัดเจนสำหรับโดเมนใด ๆ ที่คุณสามารถออกแบบได้ง่าย: พฤติกรรมของตัวควบคุมนั้นเป็นที่เข้าใจกันอย่างดีในขณะที่โซลูชัน RL มักจะตีความได้ยาก

ที่ RL ส่องอยู่ในงานที่เรารู้ว่าพฤติกรรมที่ดีนั้นมีลักษณะอย่างไร (เช่นเรารู้ว่าฟังก์ชั่นการให้รางวัล) และเรารู้ว่าอินพุตเซ็นเซอร์มีลักษณะอย่างไร (เช่นเราสามารถอธิบายสถานะที่กำหนดได้อย่างสมบูรณ์และถูกต้อง) หรือไม่รู้เลยว่าเราต้องการให้ตัวแทนทำอะไรเพื่อให้ได้รางวัลเหล่านั้น

นี่เป็นตัวอย่างที่ดี:

  • ถ้าผมอยากจะให้ตัวแทนในการจัดทำเครื่องบินจากในด้านหน้าของเครื่องบินศัตรูกับที่รู้จักกันในรูปแบบการเคลื่อนไหวที่จะอยู่เบื้องหลังมันใช้จำนวนน้อยที่สุดของน้ำมันเชื้อเพลิงมากผมต้องการที่จะใช้ควบคุม PID

  • ถ้าฉันต้องการสร้างตัวแทนเพื่อควบคุมเครื่องบินและยิงเครื่องบินข้าศึกด้วยเชื้อเพลิงที่เหลือลงสู่พื้นดิน แต่ไม่มีคำอธิบายอย่างเป็นทางการว่าเครื่องบินข้าศึกอาจโจมตีอย่างไร ฉันอยากได้RLมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.