อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?

ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจ $\epsilon$

มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
แหล่งที่มา

สันนิษฐานว่าไม่มีทางออกที่ดีที่สุดที่ได้รับการยอมรับไม่เช่นนั้นหน้าวิกิพีเดียจะพูดเช่นนั้นและจะไม่มีหน้า Sourceforge

— Henry

สิ่งนี้ไม่ควรเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์เชิงทฤษฎีใช่หรือไม่

@mbq ตั้งแต่การเรียนรู้การเสริมแรงเป็นสาขาหนึ่งของการเรียนรู้เครื่องผมไม่คิดอย่างนั้น)

— Steffen

@steffen แน่นอนชื่อดูเหมือน "tcsy"

@mbq ฉันไม่เข้าใจ "tscy" หมายถึงอะไร?

— steffen

ที่นี่มีสองแบบสำรวจเอกสารที่ฉันได้พบเมื่อเร็ว ๆ นี้ ฉันยังไม่ได้อ่านพวกเขา แต่สิ่งที่เป็นนามธรรมก็น่าฟัง

Joann`s Vermorel และ Mehryar Mohri: อัลกอริทึม Bandit หลายอาวุธและการประเมินเชิงประจักษ์ (2005)

จากนามธรรม:

ปัญหาโจรติดอาวุธสำหรับนักการพนันคือการตัดสินใจว่าแขนของเครื่อง K-slot ใดที่จะดึงเพื่อเพิ่มรางวัลทั้งหมดของเขาในชุดการทดลอง ปัญหาการเรียนรู้และการปรับให้เหมาะสมในโลกแห่งความเป็นจริงจำนวนมากสามารถเป็นแบบอย่างได้ มีการเสนอกลยุทธ์หรืออัลกอริทึมหลายวิธีเพื่อแก้ไขปัญหานี้ในช่วงสองทศวรรษที่ผ่านมา แต่สำหรับความรู้ของเรานั้นยังไม่มีการประเมินขั้นตอนวิธีทั่วไปเหล่านี้

Volodymyr Kuleshov และ Doina Precup: อัลกอริทึมสำหรับปัญหาโจรติดอาวุธหลายคน (2000) จากนามธรรม:

ประการที่สองประสิทธิภาพของอัลกอริทึมส่วนใหญ่แตกต่างกันอย่างมากกับพารามิเตอร์ของปัญหาโจร การศึกษาของเราระบุสำหรับแต่ละอัลกอริทึมการตั้งค่าที่มันทำงานได้ดีและการตั้งค่าที่มันทำงานได้ไม่ดี

— Steffen
แหล่งที่มา