ที่นี่มีสองแบบสำรวจเอกสารที่ฉันได้พบเมื่อเร็ว ๆ นี้ ฉันยังไม่ได้อ่านพวกเขา แต่สิ่งที่เป็นนามธรรมก็น่าฟัง
Joann`s Vermorel และ Mehryar Mohri: อัลกอริทึม Bandit หลายอาวุธและการประเมินเชิงประจักษ์ (2005)
จากนามธรรม:
ปัญหาโจรติดอาวุธสำหรับนักการพนันคือการตัดสินใจว่าแขนของเครื่อง K-slot ใดที่จะดึงเพื่อเพิ่มรางวัลทั้งหมดของเขาในชุดการทดลอง ปัญหาการเรียนรู้และการปรับให้เหมาะสมในโลกแห่งความเป็นจริงจำนวนมากสามารถเป็นแบบอย่างได้ มีการเสนอกลยุทธ์หรืออัลกอริทึมหลายวิธีเพื่อแก้ไขปัญหานี้ในช่วงสองทศวรรษที่ผ่านมา แต่สำหรับความรู้ของเรานั้นยังไม่มีการประเมินขั้นตอนวิธีทั่วไปเหล่านี้
Volodymyr Kuleshov และ Doina Precup: อัลกอริทึมสำหรับปัญหาโจรติดอาวุธหลายคน (2000) จากนามธรรม:
ประการที่สองประสิทธิภาพของอัลกอริทึมส่วนใหญ่แตกต่างกันอย่างมากกับพารามิเตอร์ของปัญหาโจร การศึกษาของเราระบุสำหรับแต่ละอัลกอริทึมการตั้งค่าที่มันทำงานได้ดีและการตั้งค่าที่มันทำงานได้ไม่ดี