ปัญหาของ Warren Buffett

นี่เป็นนามธรรมของปัญหาการเรียนรู้ออนไลน์ / โจรที่ฉันได้ทำงานในช่วงฤดูร้อน ฉันไม่เคยเห็นปัญหาแบบนี้มาก่อนและมันก็ดูน่าสนใจทีเดียว หากคุณรู้จักงานที่เกี่ยวข้องใด ๆ ฉันขอขอบคุณการอ้างอิง

ปัญหา การตั้งค่าเป็นของโจรติดอาวุธหลายคน คุณมีแขนไม่มี แขนแต่ละอัน i มีการแจกแจงความน่าจะเป็นที่ไม่รู้จัก แต่แน่นอนผ่านการให้รางวัลซึ่งสามารถรับได้โดยการเล่น เพื่อความเป็นรูปธรรมลองสมมุติว่าแขนแต่ละข้างของฉันจ่ายรางวัล $ 10 พร้อมความน่าจะเป็นp [i]และให้รางวัล $ 0 กับปัญหา 1-P [ผม]

ในทุกรอบทีคุณเลือกชุดS [t]แขนเล่น สำหรับแขนแต่ละข้างที่คุณเลือกคุณจะต้องจ่ายค่าธรรมเนียม$ 1ล่วงหน้า สำหรับแขนที่เลือกแต่ละครั้งคุณจะได้รับรางวัลซึ่งมาจากการแจกแจงความน่าจะเป็นของรางวัล (ไม่ทราบ) ที่แขน รางวัลทั้งหมดเข้าสู่บัญชีธนาคารของคุณและค่าธรรมเนียมทั้งหมดจะถูกหักออกจากบัญชีนั้น นอกจากนี้คุณจะได้รับเครดิต$ 1เมื่อเริ่มต้นของการวนซ้ำทุกครั้ง

ปัญหาคือการพัฒนานโยบายในการเลือกชุดย่อยของอาวุธที่จะเล่นในการทำซ้ำแต่ละครั้งเพื่อเพิ่มผลกำไร (เช่นรางวัลลบด้วยค่าธรรมเนียมสำหรับการเล่น) ในระยะเวลาที่ยาวนานพอสมควรภายใต้ข้อ จำกัด ที่ต้องรักษายอดเงินในบัญชี ทุกเวลา.

ฉันไม่ได้ระบุว่าการแจกรางวัลแบบต่อแขนจะถูกเลือกจากการแจกแจงก่อนหน้าหรือการเลือกโดยฝ่ายตรงข้าม ตัวเลือกทั้งสองมีเหตุผล การกำหนดปฏิปักษ์เป็นที่น่าสนใจสำหรับฉันมากขึ้น แต่อาจยากที่จะทำให้ก้าวหน้า ฝ่ายตรงข้ามเลือกเวกเตอร์ (D1, D2, .. , DN) ของการแจกแจง เมื่อพิจารณาจากการแจกแจงนโยบายสมดุลงบประมาณที่เหมาะสมคือเล่นทุกแขนงที่มีรางวัลที่คาดหวังสูงกว่า $ 1 ให้ P เป็นกำไรต่อขั้นตอนของนโยบายรอบรู้ที่ดีที่สุดนี้ ฉันต้องการให้นโยบายออนไลน์ของฉันลดความเสียใจให้น้อยที่สุด (เช่นการสูญเสียผลกำไรในช่วงเวลาหนึ่ง T) wrt นโยบายรอบรู้นี้

machine-learning lg.learning online-learning

— Martin Pál
แหล่งที่มา

คุณแน่ใจหรือว่านโยบายที่ดีที่สุดคือเล่นทุกแขนงที่มีรางวัลที่คาดหวังมากกว่า $ 1 ในทุก ๆ รอบ? หากคุณมีข้อ จำกัด ที่เข้มงวดที่คุณต้องรักษายอดเงินในบัญชีที่ไม่เป็นลบตลอดเวลาอาจมีรอบที่คุณไม่ได้รับอนุญาตให้เล่น

— Matthias

ดังนั้นคุณไม่ทราบความน่าจะเป็นของรางวัล แต่คุณสามารถบอกผลตอบแทนจากแขนของแต่ละคนได้หรือไม่

— David Thornley

คุณไม่รู้ความน่าจะเป็นและคุณไม่ทราบว่าจะได้รับรางวัล นโยบาย "เหมาะสมที่สุด" รอบรู้ที่ฉันต้องการเปรียบเทียบตัวเองกับสามารถเล่นอาวุธทั้งหมดที่มีรางวัลมากกว่า 1 เพราะมันรอบรู้

— Martin Pál

ฉันจะทำให้เดาป่าว่าหลังจาก

รอบคุณจะได้รับรายได้ที่คาดว่าจะเป็นปัจจัยภายในอย่างต่อเนื่องของดีที่สุดหลังจากที่ปัญหาที่ดูเหมือนว่าจะมีการสูญเสียมากที่สุดของตัวละครที่ผิดปกติของ ขอบเขตล่างของ

ตามมาจากอินสแตนซ์ที่แขนข้างเดียวเท่านั้นที่มีการจ่ายผลตอบแทนที่ไม่ใช่ศูนย์ ฉันไม่เห็นขอบเขตบนทันที

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

— Warren Schudy

การแก้ไข: หลังจาก

รอบคุณอาจไม่สามารถรับประกันได้ว่าจะได้รับรายได้ที่เหมาะสม อย่างไรก็ตามคุณอาจได้รับการรับประกันที่เกี่ยวข้องกับรายได้จากอาวุธที่คาดว่าจะได้รับผลตอบแทนอย่างน้อย 2 ดอลลาร์

Θ (N)

$\Theta(N)$

— Warren Schudy

ฉันจินตนาการว่ามีวิธีการที่เป็นไปได้มากมายสำหรับปัญหานี้ (หลายแห่งซึ่งฉันแน่ใจว่าคุณพิจารณาแล้ว) - นี่คือแนวคิด / ข้อมูลอ้างอิงบางส่วน

คุณสามารถเล่นเกมนี้เป็นเกมโจรโจรแขนเดี่ยวขนานอิสระตัดสินใจที่จะดึงหรือไม่ดึงแขนแต่ละข้างอย่างอิสระ สิ่งนี้จะทำงานได้ดีเป็นพิเศษหากมีการแจกรางวัลอย่างอิสระ $N$
อนุญาตให้แขนแต่ละชุดเป็นแขนใหม่และใช้อัลกอริทึมแบบ Exp3 นี้จะช่วยให้เสียใจ - ไม่ดีดังนั้น $O(2^{N/2} T^{1/2})$
ในกระดาษ NIPS 2010 ที่กำลังจะมาถึง Saten Kale, Rob Schapire และฉันพิจารณากรณีที่มีผู้เล่นแขนชนวนหนึ่งครั้ง อย่างไรก็ตามในงานของเราขนาดของกระดานชนวนได้รับการแก้ไข บทความนี้ยังพิจารณาปัญหาที่คล้ายกัน งานที่คล้ายกันอีกงานหนึ่งปรากฏใน ALT 2010 บางทีความคิดบางอย่างอาจส่งผ่าน
$2^N$ $O(N\sqrt{T})$ $O(2^N T)$

แก้ไขด้านล่าง:

$0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

$B$ $0$ $2B$ $1/B$

— Lev Reyzin
แหล่งที่มา

สวัสดีเลฟขอบคุณสำหรับพอยน์เตอร์ ฉันยอมรับว่าถ้าฉันมีงบประมาณเริ่มต้นไม่ จำกัด ในการเล่นวงดนตรีแขนเดียวขนาน N จะแก้ปัญหาได้ ข้อ จำกัด ด้านงบประมาณอย่างไรก็ตามแนะนำการมีเพศสัมพันธ์ระหว่างแขนและทำให้สิ่งที่น่าสนใจ โดยเฉพาะในขั้นตอนแรกคุณมีงบประมาณที่จะเล่นแค่แขนเดียว ในขั้นตอนที่สองคุณสามารถเล่นได้ทั้ง 11 แขนหรือเพียง 1 แขนขึ้นอยู่กับว่าคุณโชคดีในขั้นตอนแรกเป็นต้น ดังนั้นจึงเป็นเรื่องสำคัญที่คุณจะต้องหาอาวุธที่ทำกำไรได้ตั้งแต่เนิ่นๆก่อนที่คุณจะใช้การสำรวจต่อไป

— Martin Pál

ฉันไม่ได้ตระหนักว่ามีงบประมาณเริ่มต้น (ตอนนี้ฉันเข้าใจส่วน "ไม่สมดุลเชิงลบ" แต่บางทีคุณสามารถทำให้ชัดเจนขึ้นในคำถาม?) - นั่นทำให้ปัญหาน่าสนใจยิ่งขึ้น นอกจากนี้รุ่น "บริบท" หรือผู้เชี่ยวชาญอาจสนุกกับการพิจารณา น่าเสียดายที่ฉันไม่ทราบข้อมูลอ้างอิงที่เกี่ยวข้องเพิ่มเติมสำหรับปัญหานี้

— เลฟเรซิน

หากฉันได้สูตรการแก้ปัญหาที่ถูกต้องคุณจะได้รับ $ 1 เพิ่มในแต่ละรอบ มาร์ตินคุณช่วยอธิบายคำถามได้ไหม?

— Jukka Suomela

ฉันคิดว่าคุณจะได้รับสิ่งที่เครื่องจ่ายถ้าคุณเล่นและชนะและสูญเสีย $ 1 เมื่อใดก็ตามที่คุณตัดสินใจที่จะเล่น

— Lev Reyzin