ขั้นตอนวิธีโจรที่ดีที่สุด?


27

อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

คำตอบ:


25

บทความจาก NIPS 2011 ("การประเมินเชิงประจักษ์ของ Thompson Sampling") แสดงให้เห็นว่าในการทดลอง Thompson Sampling ชนะ UCB UCB ขึ้นอยู่กับการเลือกคานที่สัญญาว่าจะให้รางวัลสูงสุดภายใต้สมมติฐานในแง่ดี (เช่นความแปรปรวนของการคาดการณ์ของรางวัลที่คาดว่าจะสูงดังนั้นคุณจึงดึงคันโยกที่คุณไม่ทราบว่าดี) แต่ Thompson Sampling นั้นเต็มไปด้วย Bayesian: มันสร้างรูปแบบโจร (เช่นเวกเตอร์ของรางวัลที่คาดหวัง) จากการแจกแจงแบบหลังและจากนั้นทำหน้าที่ราวกับว่านี่เป็นรูปแบบจริง (เช่นดึงคันโยกพร้อมกับรางวัลที่คาดหวังสูงสุด)

กฎการควบคุมแบบเบส์ (" หลักการเอนโทรปีขั้นต่ำสำหรับการเรียนรู้และการแสดง ", JAIR), การสรุปของ ธ ​​อมป์สันสุ่มตัวอย่าง, เกิดขึ้นจากการสุ่มตัวอย่าง ธ อมป์สันข้อมูลจากหลักการและทฤษฎีทฤษฏีข้อมูล โดยเฉพาะอย่างยิ่งจะแสดงให้เห็นว่ากฎการควบคุมแบบเบย์เป็นกลยุทธ์ที่เหมาะสมที่สุดเมื่อคุณต้องการลด KL ระหว่างกลยุทธ์ของคุณและกลยุทธ์ที่เหมาะสมที่สุด (ไม่ทราบ) และหากคุณคำนึงถึงข้อ จำกัด เชิงสาเหตุ เหตุผลที่สิ่งนี้มีความสำคัญเนื่องจากสามารถดูได้ว่าเป็นส่วนขยายของการอนุมานแบบเบย์ไปสู่การกระทำ: การอนุมานแบบเบย์สามารถแสดงให้เห็นว่าเป็นกลยุทธ์การทำนายที่ดีที่สุดเมื่อเกณฑ์ประสิทธิภาพของคุณคือ KL ระหว่างตัวประมาณค่าของคุณ


16

UCB นั้นใกล้จะเหมาะสมที่สุดในกรณี stochastic (มากถึง log t factor สำหรับเกม T round) และขึ้นอยู่กับช่องว่างในความไม่เท่าเทียมกันของ Pinsker ในกรณีที่มีปัญหามากขึ้น กระดาษล่าสุดของAudibert และ Bubeckจะลบการพึ่งพาบันทึกนี้ในกรณีที่เลวร้ายที่สุด แต่มีขอบเขตที่แย่กว่าในกรณีที่น่าพอใจเมื่อแขนที่แตกต่างกันมีรางวัลแยกกัน

โดยทั่วไป UCB เป็นหนึ่งในผู้สมัครจากอัลกอริทึมตระกูลใหญ่ ณ จุดใด ๆ ในเกมคุณสามารถดูแขนทั้งหมดที่ไม่ได้ "ถูกตัดสิทธิ์" ซึ่งก็คือซึ่งความเชื่อมั่นสูงสุดบนนั้นไม่เล็กกว่าความมั่นใจล่างของแขนบางส่วน การเลือกขึ้นอยู่กับการกระจายของอาวุธที่มีคุณสมบัติดังกล่าวถือเป็นกลยุทธ์ที่ถูกต้องและได้รับความเสียใจคล้ายกับค่าคงที่

สังเกตุฉันไม่คิดว่ามีการประเมินผลที่สำคัญของกลยุทธ์ที่แตกต่างกัน แต่ฉันคิดว่า UCB มักจะค่อนข้างดี

การวิจัยล่าสุดส่วนใหญ่ได้มุ่งเน้นไปที่การขยายปัญหาโจรนอกเหนือไปจากการตั้งค่าอาวุธ K แบบง่าย ๆ ด้วยการให้รางวัลแบบสุ่มไปจนถึงพื้นที่ปฏิบัติการขนาดใหญ่ (หรือไม่มีที่สิ้นสุด) โดยมีหรือไม่มีข้อมูลด้านข้าง นอกจากนี้ยังมีการทำงานในสถานการณ์ที่เกณฑ์ประสิทธิภาพแตกต่างกัน (เช่นการระบุแขนที่ดีที่สุดเท่านั้น)


4

สถานะของงานศิลปะในปัจจุบันสามารถสรุปได้ดังนี้:

  • สุ่ม: UCB และตัวแปร (เสียใจใน )RT=O(Kเข้าสู่ระบบTΔ)
  • ฝ่ายตรงข้าม: EXP3 และตัวแปร (เสียใจใน )R~T=O(TKเข้าสู่ระบบK)
  • บริบท: มันซับซ้อน

ด้วยคือจำนวนรอบ,จำนวนแขน,ความแตกต่างที่แท้จริงระหว่างแขนที่ดีที่สุดและดีที่สุดที่สอง (ช่องว่าง)TKΔ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.