อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?


13

ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจε

มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?


สันนิษฐานว่าไม่มีทางออกที่ดีที่สุดที่ได้รับการยอมรับไม่เช่นนั้นหน้าวิกิพีเดียจะพูดเช่นนั้นและจะไม่มีหน้า Sourceforge
Henry

สิ่งนี้ไม่ควรเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์เชิงทฤษฎีใช่หรือไม่

1
@mbq ตั้งแต่การเรียนรู้การเสริมแรงเป็นสาขาหนึ่งของการเรียนรู้เครื่องผมไม่คิดอย่างนั้น)
Steffen

@steffen แน่นอนชื่อดูเหมือน "tcsy"

@mbq ฉันไม่เข้าใจ "tscy" หมายถึงอะไร?
steffen

คำตอบ:


9

ที่นี่มีสองแบบสำรวจเอกสารที่ฉันได้พบเมื่อเร็ว ๆ นี้ ฉันยังไม่ได้อ่านพวกเขา แต่สิ่งที่เป็นนามธรรมก็น่าฟัง

Joann`s Vermorel และ Mehryar Mohri: อัลกอริทึม Bandit หลายอาวุธและการประเมินเชิงประจักษ์ (2005)

จากนามธรรม:

ปัญหาโจรติดอาวุธสำหรับนักการพนันคือการตัดสินใจว่าแขนของเครื่อง K-slot ใดที่จะดึงเพื่อเพิ่มรางวัลทั้งหมดของเขาในชุดการทดลอง ปัญหาการเรียนรู้และการปรับให้เหมาะสมในโลกแห่งความเป็นจริงจำนวนมากสามารถเป็นแบบอย่างได้ มีการเสนอกลยุทธ์หรืออัลกอริทึมหลายวิธีเพื่อแก้ไขปัญหานี้ในช่วงสองทศวรรษที่ผ่านมา แต่สำหรับความรู้ของเรานั้นยังไม่มีการประเมินขั้นตอนวิธีทั่วไปเหล่านี้

Volodymyr Kuleshov และ Doina Precup: อัลกอริทึมสำหรับปัญหาโจรติดอาวุธหลายคน (2000) จากนามธรรม:

ประการที่สองประสิทธิภาพของอัลกอริทึมส่วนใหญ่แตกต่างกันอย่างมากกับพารามิเตอร์ของปัญหาโจร การศึกษาของเราระบุสำหรับแต่ละอัลกอริทึมการตั้งค่าที่มันทำงานได้ดีและการตั้งค่าที่มันทำงานได้ไม่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.