การวิจัยเกี่ยวกับอัลกอริทึม MAB นั้นเชื่อมโยงกับการรับประกันประสิทธิภาพทางทฤษฎีอย่างใกล้ชิด อันที่จริงการฟื้นฟูความสนใจเข้ามาในขั้นตอนวิธีการเหล่านี้ (การเรียกคืน ธ อมป์สันสุ่มตัวอย่างถูกนำเสนอในยุค 30) เท่านั้นที่เกิดขึ้นจริงตั้งแต่ Auer พิสูจน์ 2002 กระดาษขอบเขตความเสียใจสำหรับ UCB ต่างๆและ -greedy อัลกอริทึม ดังนั้นจึงมีความสนใจเพียงเล็กน้อยในปัญหาที่การแจกรางวัลไม่เป็นที่รู้จักเนื่องจากแทบไม่มีอะไรที่สามารถพูดได้ในทางทฤษฎีϵO (บันทึก( T) )ε
แม้แต่อัลกอรึทึมการสุ่มตัวอย่างอย่างง่ายๆของ Thompson ที่คุณพูดถึงนั้นก็ต้องใช้ Bernoulli แจกจ่ายรางวัลและแม้แต่ใช้เวลา 80 ปีในการพิสูจน์ความเสียใจแบบลอการิทึม!
อย่างไรก็ตามในทางปฏิบัติในกรณีที่คุณไม่ทราบว่าการแจกแจงของรางวัลนั้นแน่นอนคุณสามารถปรับเป็นโดยการหารด้วยจำนวนมากและถ้าคุณสังเกตรางวัลเหนือเพียงสองเท่าของค่า= ไม่มีการรับประกันความเสียใจเมื่อใช้วิธีการนี้ แต่โดยทั่วไปจะใช้งานได้ค่อนข้างดีS S S : = 2 S[ 0 , 1 ]SSS: = 2 S
นอกจากนี้อัลกอริธึมการสุ่มตัวอย่าง Thompson ที่คุณพูดถึงต้องการการทดลองของ Bernoulli ดังนั้นคุณจึงไม่สามารถใช้รางวัลต่อเนื่องได้ คุณสามารถใส่การแจกแจงแบบหลังของเกาส์เซียนแทนเบต้าได้ แต่สิ่งนี้ค่อนข้างอ่อนไหวต่อการเลือกก่อนหน้าของคุณดังนั้นคุณอาจต้องการตั้งค่าให้แบนมาก หากคุณไม่ต้องการพิสูจน์การใช้งานของคุณสิ่งนี้อาจใช้ได้ดี