UCB นั้นใกล้จะเหมาะสมที่สุดในกรณี stochastic (มากถึง log t factor สำหรับเกม T round) และขึ้นอยู่กับช่องว่างในความไม่เท่าเทียมกันของ Pinsker ในกรณีที่มีปัญหามากขึ้น กระดาษล่าสุดของAudibert และ Bubeckจะลบการพึ่งพาบันทึกนี้ในกรณีที่เลวร้ายที่สุด แต่มีขอบเขตที่แย่กว่าในกรณีที่น่าพอใจเมื่อแขนที่แตกต่างกันมีรางวัลแยกกัน
โดยทั่วไป UCB เป็นหนึ่งในผู้สมัครจากอัลกอริทึมตระกูลใหญ่ ณ จุดใด ๆ ในเกมคุณสามารถดูแขนทั้งหมดที่ไม่ได้ "ถูกตัดสิทธิ์" ซึ่งก็คือซึ่งความเชื่อมั่นสูงสุดบนนั้นไม่เล็กกว่าความมั่นใจล่างของแขนบางส่วน การเลือกขึ้นอยู่กับการกระจายของอาวุธที่มีคุณสมบัติดังกล่าวถือเป็นกลยุทธ์ที่ถูกต้องและได้รับความเสียใจคล้ายกับค่าคงที่
สังเกตุฉันไม่คิดว่ามีการประเมินผลที่สำคัญของกลยุทธ์ที่แตกต่างกัน แต่ฉันคิดว่า UCB มักจะค่อนข้างดี
การวิจัยล่าสุดส่วนใหญ่ได้มุ่งเน้นไปที่การขยายปัญหาโจรนอกเหนือไปจากการตั้งค่าอาวุธ K แบบง่าย ๆ ด้วยการให้รางวัลแบบสุ่มไปจนถึงพื้นที่ปฏิบัติการขนาดใหญ่ (หรือไม่มีที่สิ้นสุด) โดยมีหรือไม่มีข้อมูลด้านข้าง นอกจากนี้ยังมีการทำงานในสถานการณ์ที่เกณฑ์ประสิทธิภาพแตกต่างกัน (เช่นการระบุแขนที่ดีที่สุดเท่านั้น)