ปัญหาของ Warren Buffett


19

นี่เป็นนามธรรมของปัญหาการเรียนรู้ออนไลน์ / โจรที่ฉันได้ทำงานในช่วงฤดูร้อน ฉันไม่เคยเห็นปัญหาแบบนี้มาก่อนและมันก็ดูน่าสนใจทีเดียว หากคุณรู้จักงานที่เกี่ยวข้องใด ๆ ฉันขอขอบคุณการอ้างอิง

ปัญหา การตั้งค่าเป็นของโจรติดอาวุธหลายคน คุณมีแขนไม่มี แขนแต่ละอัน i มีการแจกแจงความน่าจะเป็นที่ไม่รู้จัก แต่แน่นอนผ่านการให้รางวัลซึ่งสามารถรับได้โดยการเล่น เพื่อความเป็นรูปธรรมลองสมมุติว่าแขนแต่ละข้างของฉันจ่ายรางวัล $ 10 พร้อมความน่าจะเป็นp [i]และให้รางวัล $ 0 กับปัญหา 1-P [ผม]

ในทุกรอบทีคุณเลือกชุดS [t]แขนเล่น สำหรับแขนแต่ละข้างที่คุณเลือกคุณจะต้องจ่ายค่าธรรมเนียม$ 1ล่วงหน้า สำหรับแขนที่เลือกแต่ละครั้งคุณจะได้รับรางวัลซึ่งมาจากการแจกแจงความน่าจะเป็นของรางวัล (ไม่ทราบ) ที่แขน รางวัลทั้งหมดเข้าสู่บัญชีธนาคารของคุณและค่าธรรมเนียมทั้งหมดจะถูกหักออกจากบัญชีนั้น นอกจากนี้คุณจะได้รับเครดิต$ 1เมื่อเริ่มต้นของการวนซ้ำทุกครั้ง

ปัญหาคือการพัฒนานโยบายในการเลือกชุดย่อยของอาวุธที่จะเล่นในการทำซ้ำแต่ละครั้งเพื่อเพิ่มผลกำไร (เช่นรางวัลลบด้วยค่าธรรมเนียมสำหรับการเล่น) ในระยะเวลาที่ยาวนานพอสมควรภายใต้ข้อ จำกัด ที่ต้องรักษายอดเงินในบัญชี ทุกเวลา.

ฉันไม่ได้ระบุว่าการแจกรางวัลแบบต่อแขนจะถูกเลือกจากการแจกแจงก่อนหน้าหรือการเลือกโดยฝ่ายตรงข้าม ตัวเลือกทั้งสองมีเหตุผล การกำหนดปฏิปักษ์เป็นที่น่าสนใจสำหรับฉันมากขึ้น แต่อาจยากที่จะทำให้ก้าวหน้า ฝ่ายตรงข้ามเลือกเวกเตอร์ (D1, D2, .. , DN) ของการแจกแจง เมื่อพิจารณาจากการแจกแจงนโยบายสมดุลงบประมาณที่เหมาะสมคือเล่นทุกแขนงที่มีรางวัลที่คาดหวังสูงกว่า $ 1 ให้ P เป็นกำไรต่อขั้นตอนของนโยบายรอบรู้ที่ดีที่สุดนี้ ฉันต้องการให้นโยบายออนไลน์ของฉันลดความเสียใจให้น้อยที่สุด (เช่นการสูญเสียผลกำไรในช่วงเวลาหนึ่ง T) wrt นโยบายรอบรู้นี้


คุณแน่ใจหรือว่านโยบายที่ดีที่สุดคือเล่นทุกแขนงที่มีรางวัลที่คาดหวังมากกว่า $ 1 ในทุก ๆ รอบ? หากคุณมีข้อ จำกัด ที่เข้มงวดที่คุณต้องรักษายอดเงินในบัญชีที่ไม่เป็นลบตลอดเวลาอาจมีรอบที่คุณไม่ได้รับอนุญาตให้เล่น
Matthias

ดังนั้นคุณไม่ทราบความน่าจะเป็นของรางวัล แต่คุณสามารถบอกผลตอบแทนจากแขนของแต่ละคนได้หรือไม่
David Thornley

คุณไม่รู้ความน่าจะเป็นและคุณไม่ทราบว่าจะได้รับรางวัล นโยบาย "เหมาะสมที่สุด" รอบรู้ที่ฉันต้องการเปรียบเทียบตัวเองกับสามารถเล่นอาวุธทั้งหมดที่มีรางวัลมากกว่า 1 เพราะมันรอบรู้
Martin Pál

1
ฉันจะทำให้เดาป่าว่าหลังจากรอบคุณจะได้รับรายได้ที่คาดว่าจะเป็นปัจจัยภายในอย่างต่อเนื่องของดีที่สุดหลังจากที่ปัญหาที่ดูเหมือนว่าจะมีการสูญเสียมากที่สุดของตัวละครที่ผิดปกติของ ขอบเขตล่างของΩ ( N )ตามมาจากอินสแตนซ์ที่แขนข้างเดียวเท่านั้นที่มีการจ่ายผลตอบแทนที่ไม่ใช่ศูนย์ ฉันไม่เห็นขอบเขตบนทันที Θ(ยังไม่มีข้อความ)Ω(ยังไม่มีข้อความ)
Warren Schudy

การแก้ไข: หลังจากรอบคุณอาจไม่สามารถรับประกันได้ว่าจะได้รับรายได้ที่เหมาะสม อย่างไรก็ตามคุณอาจได้รับการรับประกันที่เกี่ยวข้องกับรายได้จากอาวุธที่คาดว่าจะได้รับผลตอบแทนอย่างน้อย 2 ดอลลาร์ Θ(ยังไม่มีข้อความ)
Warren Schudy

คำตอบ:


13

ฉันจินตนาการว่ามีวิธีการที่เป็นไปได้มากมายสำหรับปัญหานี้ (หลายแห่งซึ่งฉันแน่ใจว่าคุณพิจารณาแล้ว) - นี่คือแนวคิด / ข้อมูลอ้างอิงบางส่วน

  • คุณสามารถเล่นเกมนี้เป็นเกมโจรโจรแขนเดี่ยวขนานอิสระตัดสินใจที่จะดึงหรือไม่ดึงแขนแต่ละข้างอย่างอิสระ สิ่งนี้จะทำงานได้ดีเป็นพิเศษหากมีการแจกรางวัลอย่างอิสระยังไม่มีข้อความ
  • อนุญาตให้แขนแต่ละชุดเป็นแขนใหม่และใช้อัลกอริทึมแบบ Exp3 นี้จะช่วยให้เสียใจ - ไม่ดีดังนั้นO(2N/2T1/2)
  • ในกระดาษ NIPS 2010 ที่กำลังจะมาถึง Saten Kale, Rob Schapire และฉันพิจารณากรณีที่มีผู้เล่นแขนชนวนหนึ่งครั้ง อย่างไรก็ตามในงานของเราขนาดของกระดานชนวนได้รับการแก้ไข บทความนี้ยังพิจารณาปัญหาที่คล้ายกัน งานที่คล้ายกันอีกงานหนึ่งปรากฏใน ALT 2010 บางทีความคิดบางอย่างอาจส่งผ่าน
  • 2NO(NT)O(2NT)

แก้ไขด้านล่าง:

01(n-1)/nTT(n-1)T/n

B02B1/B


สวัสดีเลฟขอบคุณสำหรับพอยน์เตอร์ ฉันยอมรับว่าถ้าฉันมีงบประมาณเริ่มต้นไม่ จำกัด ในการเล่นวงดนตรีแขนเดียวขนาน N จะแก้ปัญหาได้ ข้อ จำกัด ด้านงบประมาณอย่างไรก็ตามแนะนำการมีเพศสัมพันธ์ระหว่างแขนและทำให้สิ่งที่น่าสนใจ โดยเฉพาะในขั้นตอนแรกคุณมีงบประมาณที่จะเล่นแค่แขนเดียว ในขั้นตอนที่สองคุณสามารถเล่นได้ทั้ง 11 แขนหรือเพียง 1 แขนขึ้นอยู่กับว่าคุณโชคดีในขั้นตอนแรกเป็นต้น ดังนั้นจึงเป็นเรื่องสำคัญที่คุณจะต้องหาอาวุธที่ทำกำไรได้ตั้งแต่เนิ่นๆก่อนที่คุณจะใช้การสำรวจต่อไป
Martin Pál

2
ฉันไม่ได้ตระหนักว่ามีงบประมาณเริ่มต้น (ตอนนี้ฉันเข้าใจส่วน "ไม่สมดุลเชิงลบ" แต่บางทีคุณสามารถทำให้ชัดเจนขึ้นในคำถาม?) - นั่นทำให้ปัญหาน่าสนใจยิ่งขึ้น นอกจากนี้รุ่น "บริบท" หรือผู้เชี่ยวชาญอาจสนุกกับการพิจารณา น่าเสียดายที่ฉันไม่ทราบข้อมูลอ้างอิงที่เกี่ยวข้องเพิ่มเติมสำหรับปัญหานี้
เลฟเรซิน

หากฉันได้สูตรการแก้ปัญหาที่ถูกต้องคุณจะได้รับ $ 1 เพิ่มในแต่ละรอบ มาร์ตินคุณช่วยอธิบายคำถามได้ไหม?
Jukka Suomela

ฉันคิดว่าคุณจะได้รับสิ่งที่เครื่องจ่ายถ้าคุณเล่นและชนะและสูญเสีย $ 1 เมื่อใดก็ตามที่คุณตัดสินใจที่จะเล่น
Lev Reyzin
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.