ขั้นตอนวิธีโจรที่ดีที่สุด?

27

อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

— Artem Kaznatcheev
แหล่งที่มา

25

บทความจาก NIPS 2011 ("การประเมินเชิงประจักษ์ของ Thompson Sampling") แสดงให้เห็นว่าในการทดลอง Thompson Sampling ชนะ UCB UCB ขึ้นอยู่กับการเลือกคานที่สัญญาว่าจะให้รางวัลสูงสุดภายใต้สมมติฐานในแง่ดี (เช่นความแปรปรวนของการคาดการณ์ของรางวัลที่คาดว่าจะสูงดังนั้นคุณจึงดึงคันโยกที่คุณไม่ทราบว่าดี) แต่ Thompson Sampling นั้นเต็มไปด้วย Bayesian: มันสร้างรูปแบบโจร (เช่นเวกเตอร์ของรางวัลที่คาดหวัง) จากการแจกแจงแบบหลังและจากนั้นทำหน้าที่ราวกับว่านี่เป็นรูปแบบจริง (เช่นดึงคันโยกพร้อมกับรางวัลที่คาดหวังสูงสุด)

กฎการควบคุมแบบเบส์ (" หลักการเอนโทรปีขั้นต่ำสำหรับการเรียนรู้และการแสดง ", JAIR), การสรุปของ ธ อมป์สันสุ่มตัวอย่าง, เกิดขึ้นจากการสุ่มตัวอย่าง ธ อมป์สันข้อมูลจากหลักการและทฤษฎีทฤษฏีข้อมูล โดยเฉพาะอย่างยิ่งจะแสดงให้เห็นว่ากฎการควบคุมแบบเบย์เป็นกลยุทธ์ที่เหมาะสมที่สุดเมื่อคุณต้องการลด KL ระหว่างกลยุทธ์ของคุณและกลยุทธ์ที่เหมาะสมที่สุด (ไม่ทราบ) และหากคุณคำนึงถึงข้อ จำกัด เชิงสาเหตุ เหตุผลที่สิ่งนี้มีความสำคัญเนื่องจากสามารถดูได้ว่าเป็นส่วนขยายของการอนุมานแบบเบย์ไปสู่การกระทำ: การอนุมานแบบเบย์สามารถแสดงให้เห็นว่าเป็นกลยุทธ์การทำนายที่ดีที่สุดเมื่อเกณฑ์ประสิทธิภาพของคุณคือ KL ระหว่างตัวประมาณค่าของคุณ

— Pedro A. Ortega
แหล่งที่มา

16

UCB นั้นใกล้จะเหมาะสมที่สุดในกรณี stochastic (มากถึง log t factor สำหรับเกม T round) และขึ้นอยู่กับช่องว่างในความไม่เท่าเทียมกันของ Pinsker ในกรณีที่มีปัญหามากขึ้น กระดาษล่าสุดของAudibert และ Bubeckจะลบการพึ่งพาบันทึกนี้ในกรณีที่เลวร้ายที่สุด แต่มีขอบเขตที่แย่กว่าในกรณีที่น่าพอใจเมื่อแขนที่แตกต่างกันมีรางวัลแยกกัน

โดยทั่วไป UCB เป็นหนึ่งในผู้สมัครจากอัลกอริทึมตระกูลใหญ่ ณ จุดใด ๆ ในเกมคุณสามารถดูแขนทั้งหมดที่ไม่ได้ "ถูกตัดสิทธิ์" ซึ่งก็คือซึ่งความเชื่อมั่นสูงสุดบนนั้นไม่เล็กกว่าความมั่นใจล่างของแขนบางส่วน การเลือกขึ้นอยู่กับการกระจายของอาวุธที่มีคุณสมบัติดังกล่าวถือเป็นกลยุทธ์ที่ถูกต้องและได้รับความเสียใจคล้ายกับค่าคงที่

สังเกตุฉันไม่คิดว่ามีการประเมินผลที่สำคัญของกลยุทธ์ที่แตกต่างกัน แต่ฉันคิดว่า UCB มักจะค่อนข้างดี

การวิจัยล่าสุดส่วนใหญ่ได้มุ่งเน้นไปที่การขยายปัญหาโจรนอกเหนือไปจากการตั้งค่าอาวุธ K แบบง่าย ๆ ด้วยการให้รางวัลแบบสุ่มไปจนถึงพื้นที่ปฏิบัติการขนาดใหญ่ (หรือไม่มีที่สิ้นสุด) โดยมีหรือไม่มีข้อมูลด้านข้าง นอกจากนี้ยังมีการทำงานในสถานการณ์ที่เกณฑ์ประสิทธิภาพแตกต่างกัน (เช่นการระบุแขนที่ดีที่สุดเท่านั้น)

4

สถานะของงานศิลปะในปัจจุบันสามารถสรุปได้ดังนี้:

สุ่ม: UCB และตัวแปร (เสียใจใน ) $R_T = O(\frac{K \log T}{\Delta})$
ฝ่ายตรงข้าม: EXP3 และตัวแปร (เสียใจใน ) $\tilde{R}_T = O(\sqrt{T K \log K})$
บริบท: มันซับซ้อน

ด้วยคือจำนวนรอบ,จำนวนแขน,ความแตกต่างที่แท้จริงระหว่างแขนที่ดีที่สุดและดีที่สุดที่สอง (ช่องว่าง) $T$ $K$ $\Delta$

— oDDsKooL
แหล่งที่มา