ฉันกำลังสร้างรถขับเคลื่อนด้วยตนเองที่ควบคุมจากระยะไกลเพื่อความสนุกสนาน ฉันใช้ Raspberry Pi เป็นคอมพิวเตอร์ออนบอร์ด และฉันใช้ปลั๊กอินต่าง ๆ เช่นกล้อง Raspberry Pi และเซ็นเซอร์ระยะทางเพื่อรับคำติชมเกี่ยวกับสภาพแวดล้อมของรถ ฉันใช้ OpenCV เพื่อเปลี่ยนเฟรมวิดีโอเป็นเทนเซอร์และฉันใช้ TensorFlow ของ Google เพื่อสร้างเครือข่ายประสาทที่ซับซ้อนเพื่อเรียนรู้ขอบเขตถนนและอุปสรรค คำถามหลักของฉันคือฉันควรใช้การเรียนรู้แบบมีผู้สอนเพื่อสอนรถยนต์ให้ขับรถหรือฉันควรให้วัตถุประสงค์และบทลงโทษและเรียนรู้การเสริมแรง (เช่นไปที่จุด B ให้เร็วที่สุดเท่าที่จะทำได้ในขณะที่ไม่ชนอะไร ด้านล่างนี้เป็นรายการข้อดีและข้อเสียที่ฉันคิดขึ้นมา
ผู้เชี่ยวชาญด้านการเรียนรู้ภายใต้การดูแล:
- อินพุตของอัลกอริทึมการเรียนรู้นั้นค่อนข้างตรงไปตรงมา รถเรียนรู้ที่จะเชื่อมโยงเทนเซอร์เฟรมวิดีโอและการอ่านระยะทางเซ็นเซอร์กับการเคลื่อนที่ไปข้างหน้าถอยหลังและล้อเชิงมุม
- ฉันสามารถสอนรถยนต์ให้มากขึ้นหรือน้อยลงได้อย่างที่ฉันต้องการ (โดยไม่ต้องใส่มากเกินไป)
- ฉันเคยทำปัญหาการเรียนรู้แบบมีผู้ควบคุมมาก่อนและวิธีนี้ดูเหมือนจะเหมาะกับทักษะที่มีอยู่ของฉัน
ข้อเสียการเรียนรู้ภายใต้การดูแล:
- มันยังไม่ชัดเจนว่าจะสอนความเร็วอย่างไรและความเร็วที่ถูกต้องนั้นค่อนข้างไร้เหตุผลตราบใดที่รถไม่ไปอย่างรวดเร็วจนมันเบี่ยงเบนไปจากถนน ฉันคิดว่าฉันสามารถขับรถเร็วในระหว่างการฝึกอบรม แต่นี่ดูเหมือนจะเป็นวิธีที่หยาบ บางทีฉันสามารถเพิ่มตัวแปรคงที่ด้วยตนเองในระหว่างการฝึกอบรมที่สอดคล้องกับความเร็วสำหรับเซสชันการฝึกอบรมนั้นและเมื่อมีการปรับใช้อัลกอริทึมการเรียนรู้ฉันจะตั้งค่าตัวแปรนี้ตามความเร็วที่ฉันต้องการ?
ข้อดีการเรียนรู้การเสริมแรง:
- ถ้าฉันสร้างรถด้วยจุดประสงค์เฉพาะในการแข่งรถขับด้วยตนเองของผู้อื่นการเรียนรู้การเสริมแรงนั้นดูเหมือนจะเป็นวิธีธรรมชาติในการบอกรถของฉันว่า "ไปถึงที่นั่นให้เร็วที่สุด"
- ฉันเคยอ่านว่า RL บางครั้งใช้สำหรับโดรนอัตโนมัติดังนั้นในทางทฤษฎีมันควรจะง่ายขึ้นในรถยนต์เพราะฉันไม่ต้องกังวลเกี่ยวกับการขึ้นลง
ข้อเสียการเรียนรู้เสริม:
ฉันรู้สึกว่าการเรียนรู้การเสริมแรงจะต้องใช้เซ็นเซอร์เพิ่มเติมจำนวนมากและตรงไปตรงมารถของฉันมีความยาวไม่มากพอที่จะพิจารณาว่ามันจำเป็นต้องใส่แบตเตอรี่, Raspberry Pi, และเขียงหั่นขนม
รถจะมีพฤติกรรมที่ผิดพลาดอย่างมากในตอนแรกดังนั้นมันอาจทำลายตัวเองได้ อาจใช้เวลานานเกินสมควรในการเรียนรู้ (เช่นเดือนหรือปี)
- ฉันไม่สามารถสร้างกฎที่ชัดเจนได้ในภายหลังเช่นหยุดที่ไฟแดงของเล่น ด้วยการเรียนรู้ภายใต้การดูแลฉันสามารถรวมอัลกอริธึม SL จำนวนมาก (เช่นตัวแยกประเภทของ Haar Cascade เพื่อระบุตัวหยุด) ลงในเอ็นจิ้นกฎที่กำหนดค่าได้ซึ่งได้รับการประเมินระหว่างแต่ละเฟรมวิดีโอ กลไกของกฎจะสามารถแทนที่อัลกอริทึม SL ในการขับขี่หากเห็นสต็อปไลท์สีแดงแม้ว่าสต็อปไลท์อาจไม่ได้เป็นส่วนหนึ่งของการฝึกอบรมอัลกอริทึมการขับขี่ RL ดูเหมือนจะทำสิ่งนี้อย่างต่อเนื่องเกินไป (เช่นหยุดที่สถานะเทอร์มินัลเท่านั้น)
- ฉันไม่ได้มีประสบการณ์มากมายกับการเรียนรู้การเสริมแรงที่ใช้แม้ว่าฉันจะต้องการเรียนรู้อย่างแน่นอน