โจรติดอาวุธหลายคนสำหรับการแจกรางวัลทั่วไป

ฉันกำลังทำงานกับปัญหาโจรติดอาวุธที่เราไม่มีข้อมูลเกี่ยวกับการแจกรางวัล

ฉันพบเอกสารจำนวนมากที่รับประกันขอบเขตเสียใจสำหรับการแจกจ่ายที่มีขอบเขตที่ทราบและสำหรับการแจกแจงทั่วไปที่มีการสนับสนุนใน [0,1]

ฉันต้องการทราบว่ามีวิธีการทำงานได้ดีในสภาพแวดล้อมที่การแจกรางวัลไม่ได้รับประกันเกี่ยวกับการสนับสนุนหรือไม่ ฉันพยายามคำนวณขีดจำกัดความอดทนแบบไม่ใช้พารามิเตอร์และใช้ตัวเลขนั้นเพื่อปรับการกระจายรางวัลเพื่อให้ฉันสามารถใช้อัลกอริทึม 2 ที่ระบุไว้ในบทความนี้ ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ) ไม่มีใครคิดว่าวิธีนี้จะใช้งานได้?

ถ้าไม่ทุกคนสามารถชี้ให้ฉันไปยังจุดที่เหมาะสม?

ขอบคุณมัด!

references multiarmed-bandit

— แขก
แหล่งที่มา

การวิจัยเกี่ยวกับอัลกอริทึม MAB นั้นเชื่อมโยงกับการรับประกันประสิทธิภาพทางทฤษฎีอย่างใกล้ชิด อันที่จริงการฟื้นฟูความสนใจเข้ามาในขั้นตอนวิธีการเหล่านี้ (การเรียกคืน ธ อมป์สันสุ่มตัวอย่างถูกนำเสนอในยุค 30) เท่านั้นที่เกิดขึ้นจริงตั้งแต่ Auer พิสูจน์ 2002 กระดาษขอบเขตความเสียใจสำหรับ UCB ต่างๆและ -greedy อัลกอริทึม ดังนั้นจึงมีความสนใจเพียงเล็กน้อยในปัญหาที่การแจกรางวัลไม่เป็นที่รู้จักเนื่องจากแทบไม่มีอะไรที่สามารถพูดได้ในทางทฤษฎี $\mathcal{O}(\log(T))$ $\epsilon$

แม้แต่อัลกอรึทึมการสุ่มตัวอย่างอย่างง่ายๆของ Thompson ที่คุณพูดถึงนั้นก็ต้องใช้ Bernoulli แจกจ่ายรางวัลและแม้แต่ใช้เวลา 80 ปีในการพิสูจน์ความเสียใจแบบลอการิทึม!

อย่างไรก็ตามในทางปฏิบัติในกรณีที่คุณไม่ทราบว่าการแจกแจงของรางวัลนั้นแน่นอนคุณสามารถปรับเป็นโดยการหารด้วยจำนวนมากและถ้าคุณสังเกตรางวัลเหนือเพียงสองเท่าของค่า= ไม่มีการรับประกันความเสียใจเมื่อใช้วิธีการนี้ แต่โดยทั่วไปจะใช้งานได้ค่อนข้างดี $[0,1]$ $S$ $S$ $S:=2S$

นอกจากนี้อัลกอริธึมการสุ่มตัวอย่าง Thompson ที่คุณพูดถึงต้องการการทดลองของ Bernoulli ดังนั้นคุณจึงไม่สามารถใช้รางวัลต่อเนื่องได้ คุณสามารถใส่การแจกแจงแบบหลังของเกาส์เซียนแทนเบต้าได้ แต่สิ่งนี้ค่อนข้างอ่อนไหวต่อการเลือกก่อนหน้าของคุณดังนั้นคุณอาจต้องการตั้งค่าให้แบนมาก หากคุณไม่ต้องการพิสูจน์การใช้งานของคุณสิ่งนี้อาจใช้ได้ดี

— fairidox
แหล่งที่มา

ขอบคุณมากสำหรับคำตอบ! ฉันซาบซึ้งจริงๆ! ฉันมีคำถามว่า ฉันคิดว่าอัลกอริทึม 2 บนกระดาษ (ด้านบนของหน้า 39.4) ฉันกล่าวถึงไม่จำเป็นต้องมีอะไรเกี่ยวกับการแจกรางวัล แต่ความจริงที่ว่าการสนับสนุนนั้นอยู่ใน [0,1] บางทีคุณกำลังมองหาอัลกอริทึม 1

— แขกรับเชิญ

ใช่เจ๋งเป็นเคล็ดลับที่น่าสนใจในการแปลงค่าจริงเป็นตัวอย่างของเบอร์นูลีขอบคุณที่ชี้ให้เห็นว่า ในกรณีใด ๆ ตามที่คุณบอกว่าคุณยังคงต้องการตัวแปรที่มีขอบเขตคุณสามารถทำสิ่งนี้ได้ด้วยเคล็ดลับสองเท่าราคาถูกที่ฉันพูดถึงและใช้การสุ่มตัวอย่าง Thompson รุ่นนี้ แต่คุณอาจจะดีกว่าในการกำหนดวิธีการที่ใช้หลังเกาส์เซียน

— fairidox

ฉันจะดูเพิ่มเติมเกี่ยวกับวิธีการแบบเกาส์หลัง แต่คุณหมายถึงอะไรโดย "แบน" ในแง่ของการเสียน ฉันคิดว่าจะสอดคล้องกับบางสิ่งบางอย่างเช่นเบต้า (1,1) (เหมือนกัน) มาก่อนใช่ไหม?

— แขกรับเชิญ

ถูกต้อง แต่คุณไม่สามารถมีรูปแบบเหมือนกันก่อนหน้าโดเมนที่ไม่มีขอบเขต ดังนั้นหากคุณมีโมเดลหลังของเกาส์เซียนคุณน่าจะมีเกาส์เซียนมาก่อนดังนั้นโดยทั่วไปคุณต้องการให้มันเป็นแบบ "แบน" หรือไม่เป็นไปได้มากที่สุด โดยทั่วไปหมายถึงการสร้างความแปรปรวนที่มีขนาดใหญ่ที่สุดเท่าที่จะทำได้ ฉันไม่มีความเชี่ยวชาญ แต่มีการศึกษาในสาขาทั้งหมดเกี่ยวกับวิธีการสร้างนักการศึกษาที่ไม่เป็นไปได้และไม่เหมาะสมนักที่คุณอาจต้องการศึกษา นอกจากนี้หากคุณมีรางวัลในเชิงบวกอย่างเคร่งครัดคุณอาจต้องการพิจารณารูปแบบที่แตกต่างกัน

— fairidox