นี่เป็นนามธรรมของปัญหาการเรียนรู้ออนไลน์ / โจรที่ฉันได้ทำงานในช่วงฤดูร้อน ฉันไม่เคยเห็นปัญหาแบบนี้มาก่อนและมันก็ดูน่าสนใจทีเดียว หากคุณรู้จักงานที่เกี่ยวข้องใด ๆ ฉันขอขอบคุณการอ้างอิง
ปัญหา การตั้งค่าเป็นของโจรติดอาวุธหลายคน คุณมีแขนไม่มี แขนแต่ละอัน i มีการแจกแจงความน่าจะเป็นที่ไม่รู้จัก แต่แน่นอนผ่านการให้รางวัลซึ่งสามารถรับได้โดยการเล่น เพื่อความเป็นรูปธรรมลองสมมุติว่าแขนแต่ละข้างของฉันจ่ายรางวัล $ 10 พร้อมความน่าจะเป็นp [i]และให้รางวัล $ 0 กับปัญหา 1-P [ผม]
ในทุกรอบทีคุณเลือกชุดS [t]แขนเล่น สำหรับแขนแต่ละข้างที่คุณเลือกคุณจะต้องจ่ายค่าธรรมเนียม$ 1ล่วงหน้า สำหรับแขนที่เลือกแต่ละครั้งคุณจะได้รับรางวัลซึ่งมาจากการแจกแจงความน่าจะเป็นของรางวัล (ไม่ทราบ) ที่แขน รางวัลทั้งหมดเข้าสู่บัญชีธนาคารของคุณและค่าธรรมเนียมทั้งหมดจะถูกหักออกจากบัญชีนั้น นอกจากนี้คุณจะได้รับเครดิต$ 1เมื่อเริ่มต้นของการวนซ้ำทุกครั้ง
ปัญหาคือการพัฒนานโยบายในการเลือกชุดย่อยของอาวุธที่จะเล่นในการทำซ้ำแต่ละครั้งเพื่อเพิ่มผลกำไร (เช่นรางวัลลบด้วยค่าธรรมเนียมสำหรับการเล่น) ในระยะเวลาที่ยาวนานพอสมควรภายใต้ข้อ จำกัด ที่ต้องรักษายอดเงินในบัญชี ทุกเวลา.
ฉันไม่ได้ระบุว่าการแจกรางวัลแบบต่อแขนจะถูกเลือกจากการแจกแจงก่อนหน้าหรือการเลือกโดยฝ่ายตรงข้าม ตัวเลือกทั้งสองมีเหตุผล การกำหนดปฏิปักษ์เป็นที่น่าสนใจสำหรับฉันมากขึ้น แต่อาจยากที่จะทำให้ก้าวหน้า ฝ่ายตรงข้ามเลือกเวกเตอร์ (D1, D2, .. , DN) ของการแจกแจง เมื่อพิจารณาจากการแจกแจงนโยบายสมดุลงบประมาณที่เหมาะสมคือเล่นทุกแขนงที่มีรางวัลที่คาดหวังสูงกว่า $ 1 ให้ P เป็นกำไรต่อขั้นตอนของนโยบายรอบรู้ที่ดีที่สุดนี้ ฉันต้องการให้นโยบายออนไลน์ของฉันลดความเสียใจให้น้อยที่สุด (เช่นการสูญเสียผลกำไรในช่วงเวลาหนึ่ง T) wrt นโยบายรอบรู้นี้