การเขียนโปรแกรมบรรทัดต่อไปนี้หุ่นยนต์ด้วยการเรียนรู้การเสริมแรง


15

ฉันกำลังพิจารณาการเขียนโปรแกรมบรรทัดต่อไปนี้หุ่นยนต์โดยใช้อัลกอริทึมเสริมการเรียนรู้ คำถามที่ฉันครุ่นคิดคือฉันจะหาอัลกอริทึมเพื่อเรียนรู้การนำทางผ่านเส้นทางใด ๆ ได้อย่างไร?

หลังจากที่ได้ติดตามSutton & Barto Bookเพื่อเรียนรู้การเสริมแรงฉันได้แก้ปัญหาการออกกำลังกายที่เกี่ยวข้องกับสนามแข่งที่ตัวแทนรถเรียนรู้ที่จะไม่ออกนอกเส้นทางและควบคุมความเร็ว อย่างไรก็ตามปัญหาการออกกำลังกายนั้นมีตัวแทนให้เรียนรู้วิธีการติดตามเส้นทางที่ฝึกมา

มันอยู่ในขอบเขตของการเรียนรู้การเสริมกำลังเพื่อให้หุ่นยนต์นำทางไปตามเส้นทางที่กำหนดหรือไม่? ไม่ตัวแทนอย่างต้องมีแผนที่ของวงจรการแข่งขันหรือเส้นทางหรือไม่? ฉันสามารถใช้พารามิเตอร์อะไรในพื้นที่ของรัฐได้บ้าง


1
ฉันไม่รู้ว่าจะทำอย่างไร แต่ฉันมั่นใจว่าเป็นไปได้ที่จะสอนให้อยู่ในเส้นทางโดยไม่คำนึงถึงรูปร่างของมัน เป้าหมายของการสอนในกรณีนี้ควรเป็นสิ่งที่การตัดสินใจของหุ่นยนต์ในท้องถิ่นนั้นขึ้นอยู่กับปัจจัยการผลิตในทันที (หรืออาจจะเป็นประวัติศาสตร์) ด้วยวิธีนี้มันไม่สำคัญว่ารูปร่างของเส้นทางจะเป็นอย่างไรเนื่องจากการตัดสินใจทั้งหมดเป็นเรื่องของท้องถิ่น
Shahbaz

@Shahbaz - คุณอยากแนะนำอะไรให้ฉันใช้กับพื้นที่ของรัฐ
ลอร์ดโลห์

จริง ๆ แล้วฉันไม่แน่ใจ แม้ว่าฉันจะเรียน AI ในมหาวิทยาลัย แต่ก็ไม่เคยมีสาขาวิชา / งานวิจัยของฉันเลย คำตอบที่คุณตอบรับดูเหมือนจะสมเหตุสมผล!
Shahbaz

คุณใช้คำตอบเพื่อทดสอบ Markdown หรือไม่? คุณสามารถเขียนสิ่งที่คุณต้องการและดูการแสดงผลทันทีด้านล่างแล้วไม่โพสต์
Shahbaz

คำตอบ:


8

หนึ่งในมาตรการสำคัญของอัลกอริทึมการเรียนรู้ของเครื่องคือความสามารถในการพูดคุยทั่วไป (เช่นใช้สิ่งที่ได้เรียนรู้กับสถานการณ์ที่ไม่เคยมีมาก่อน) ผู้เรียนเสริมกำลัง (RL) สามารถพูดคุยได้ดี แต่ความสามารถนี้เป็นส่วนหนึ่งของการกำหนดสูตรพื้นที่รัฐในประสบการณ์ของฉัน ซึ่งหมายความว่าหากคุณสามารถหาการตั้งค่าที่ถูกต้องผู้เรียน RL จะไม่ต้องการแผนที่วงจรการแข่งขัน

นี่จะทำให้คำถามที่พารามิเตอร์ที่จะใช้ โดยไม่ต้องรู้เพิ่มเติมเกี่ยวกับเซ็นเซอร์ที่มีในหุ่นยนต์ของคุณฉันสามารถคาดเดาได้เท่านั้น ความโน้มเอียงแรกของฉันคือพยายามเข้ารหัสการวางแนวสัมพัทธ์ของเส้นและหุ่นยนต์ (นั่นคือหุ่นยนต์พุ่งไปทางขวาซ้ายหรือเพียงแค่เคลื่อนที่ขนานกับเส้น) การทำเช่นนั้นจะส่งผลให้มีพื้นที่ขนาดเล็กที่ดี แม้ว่าจะไม่จำเป็นอย่างเคร่งครัด แต่จะทำให้ใช้งานได้ง่ายและรวดเร็ว นอกจากนี้หากหุ่นยนต์ไม่เคลื่อนที่ในอัตราคงที่มันอาจช่วยเข้ารหัสความเร็วของหุ่นยนต์เนื่องจากหุ่นยนต์จะต้องตอบสนองเร็วขึ้นเมื่อเคลื่อนที่ด้วยความเร็วสูง


หากไม่มีแผนที่พื้นที่ของรัฐจะเป็นสิ่งที่หุ่นยนต์สามารถรับรู้ได้จากตำแหน่งทันที ดังนั้นในระดับหนึ่งแผนที่เป็นเพียงวิธี "มองไปข้างหน้า" พฤติกรรมที่เรียนรู้ในสถานการณ์ที่ไม่มีแผนที่จะเป็นหลัก "ทำสิ่งเดียวกันก่อน แต่ช้าลงเพราะเราไม่รู้ว่าจะถึงจุดเปลี่ยนในเวลานี้" (สมมุติว่าคุณจะสามารถบอกได้ว่าขอบของแทร็กอยู่ตรงไหน)
เอียน

นโยบายบอกให้เราทราบว่าจะใช้การควบคุมแบบใดกับรัฐ หากมีการกำหนดพื้นที่ของรัฐสำหรับเอเจนต์ RL ดังนั้นสถานการณ์ที่แตกต่างกันอย่างชัดเจนอาจมีลักษณะเหมือนกันในพื้นที่ของรัฐและให้ผลการทำงานที่เหมือนกัน สิ่งนี้เรียกว่าการวางนัยทั่วไปและเป็นที่ต้องการเมื่อทำอย่างถูกต้อง หุ่นยนต์จะมีความเร็วสูงสุดตามความเร็วของลูปควบคุม พฤติกรรมที่เรียนรู้ไม่จำเป็นต้องชะลอตัวลง หากรางวัลนั้นสัมพันธ์กับระยะเวลาของการวิ่งตัวแทนจะมีแนวโน้มที่จะเพิ่มความเร็วสูงสุดตามความเร็วของลูปควบคุม
DaemonMaker

0

ฉันไม่แน่ใจว่าคุณเป็นหุ่นยนต์ประเภทใด แต่ฉันได้ทำสายกู้ภัย robocup มาหลายปีแล้ว ฉันมารู้ว่าถ้าคุณต้องการที่จะติดตามสายที่ดีโดยใช้ PID เป็นตัวเลือกที่ดี ขอผมขยายเรื่องนี้หน่อย หากคุณจินตนาการว่าเซ็นเซอร์วัดแสงสองตัวที่ด้านใดด้านหนึ่งของเส้นคุณต้องการให้พวกมันมีค่าเท่ากันเพื่อให้เส้นนั้นอยู่ตรงกลาง จากนั้นคุณสามารถใช้ความแตกต่างระหว่างค่าของเซ็นเซอร์สองตัวเพื่อเปลี่ยนเปอร์เซ็นต์การหมุนของหุ่นยนต์ ด้วยเทคนิคนี้มันเป็นไปได้ที่จะให้หุ่นยนต์วิ่งตามสายด้วยความเร็วที่ไม่ธรรมดา ฉันเหมือนกับที่คุณใคร่ครวญทำให้หุ่นยนต์เรียนรู้ที่จะพัฒนาความสามารถในการติดตามสายของมัน สิ่งที่ฉันเกิดขึ้นคือเริ่มต้นด้วยค่า PID เริ่มต้นของคุณสูงกว่าที่คุณต้องการและใช้เซ็นเซอร์ไจโรสโคปเพื่อวัดความถี่ของการสั่นของหุ่นยนต์เมื่อมันติดตามเส้น คุณสามารถสร้างฟังก์ชั่นของคุณเองเพื่อกำหนดว่าจะลดค่าของคุณลงได้มากน้อยเพียงใดเพื่อให้ได้ระบบที่มีความเสถียรนี่ไม่ใช่ปัญญาประดิษฐ์ที่แท้จริงมากขึ้นเช่นอัลกอริธึมการเพิ่มประสิทธิภาพอัตโนมัติ อินเทอร์เน็ต ฉันหวังว่านี่จะช่วยได้. หากคุณมีข้อสงสัยส่งอีเมลถึงฉันนี้ไม่ใช่ที่อยู่อีเมลหลักของฉันดังนั้นฉันจะไม่ตรวจสอบเป็นประจำ 69darkeagle@sigaint.org

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.