Thompson Sampling ในเงื่อนไขของคนธรรมดาคืออะไร


14

ฉันไม่สามารถเข้าใจThompson Samplingและวิธีการทำงาน ฉันอ่านเกี่ยวกับ Multi Arm Bandit และหลังจากอ่านอัลกอริทึมผูกมัดความเชื่อมั่นบนข้อความจำนวนมากชี้ให้เห็นว่า Thompson Sampling ทำงานได้ดีกว่า UCB Thompson Sampling ในแง่ของคนธรรมดาหรือง่ายๆคืออะไร?

อย่าลังเลที่จะให้บทความอ้างอิงเพื่อความเข้าใจเพิ่มเติม

คำตอบ:


9

ฉันจะพยายามอธิบายโดยไม่มีวิชาคณิตศาสตร์ ส่วนหนึ่งของคำตอบนี้ซ้ำแล้วซ้ำอีกจากบางจุดที่ผมทำในคำตอบสำหรับคำถามอื่นเกี่ยวกับปัญหา MAB


การแลกเปลี่ยนเชิงกลยุทธ์ในปัญหาโจรหลายแขน:ในปัญหาโจรหลายแขนนักพนันเล่นหนึ่ง "โจร" ในแต่ละรอบและพยายามที่จะเพิ่มผลตอบแทนทั้งหมดที่คาดหวังไว้ในจำนวนรอบที่กำหนด ผลตอบแทนที่คาดหวังของโจรแต่ละคนนั้นอธิบายโดยพารามิเตอร์ที่ไม่ทราบในปัญหาดังนั้นเมื่อเราสังเกตผลลัพธ์มากขึ้นในแต่ละรอบเราจะได้รับข้อมูลเพิ่มเติมเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักเหล่านี้และด้วยเหตุนี้ผลตอบแทนที่คาดหวังของโจรแต่ละคน . ในการเล่นแต่ละรอบ (ยกเว้นรอบสุดท้าย) ปัญหา MAB เกี่ยวข้องกับการแลกเปลี่ยนเชิงกลยุทธ์โดยนักการพนันระหว่างสองวัตถุประสงค์:

  • รางวัลทันที:ในแต่ละรอบเขาต้องการเลือกการแจกแจงที่ให้รางวัลที่คาดหวังสูงในรอบนี้ซึ่งเป็นการกำหนดความชอบสำหรับการแจกแจงที่เขา (ปัจจุบัน) infers มีรางวัลสูง

  • รางวัลในอนาคต (ได้รับผลกระทบจากการได้รับข้อมูล):ในอีกทางหนึ่งเขาต้องการที่จะปรับแต่งความรู้ของเขาเกี่ยวกับผลตอบแทนที่คาดหวังที่แท้จริงโดยได้รับข้อมูลเพิ่มเติมเกี่ยวกับการแจกแจง (โดยเฉพาะอย่างยิ่งสิ่งที่เขาไม่ได้เล่น ปรับปรุงทางเลือกของเขาในรอบต่อไป

ความสำคัญสัมพัทธ์ของสองสิ่งนี้จะเป็นตัวกำหนดการแลกเปลี่ยนและความสำคัญสัมพัทธ์นี้ได้รับผลกระทบจากปัจจัยหลายประการ ตัวอย่างเช่นหากมีจำนวนรอบที่เหลือเพียงเล็กน้อยในปัญหาการอนุมานสำหรับการทดลองในอนาคตนั้นค่อนข้างมีค่าน้อยกว่าในขณะที่ถ้ามีจำนวนรอบที่เหลืออยู่จำนวนมากการอนุมานเพื่อรับรางวัลในอนาคตจะค่อนข้างมีค่ามากกว่า ดังนั้นนักพนันจำเป็นต้องพิจารณาว่าเขาต้องการมุ่งเน้นไปที่การเพิ่มรางวัลทันทีในรอบปัจจุบันและเท่าใดเขาต้องการเบี่ยงเบนจากนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักที่กำหนดรางวัลที่คาดหวังของแต่ละโจร


การสุ่มตัวอย่าง ธ อมป์สัน:แนวคิดพื้นฐานของการสุ่มตัวอย่าง ธ อมป์สันคือในแต่ละรอบเราใช้ความรู้ที่มีอยู่ของเครื่องจักรซึ่งอยู่ในรูปแบบของความเชื่อด้านหลังเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักและเรา "สุ่ม" พารามิเตอร์จากการกระจายหลังนี้ พารามิเตอร์ตัวอย่างนี้ให้ชุดของรางวัลที่คาดหวังสำหรับแต่ละเครื่องและตอนนี้เราวางเดิมพันด้วยผลตอบแทนที่คาดหวังสูงสุดภายใต้พารามิเตอร์ตัวอย่างนั้น

Prima facieแผนการเก็บตัวอย่างของ Thompson ดูเหมือนจะเกี่ยวข้องกับความพยายามในการเพิ่มผลตอบแทนที่คาดหวังในแต่ละรอบให้มากที่สุด (เนื่องจากเกี่ยวข้องกับขั้นตอนการขยายสูงสุดนี้หลังจากการสุ่มตัวอย่างพารามิเตอร์) อย่างไรก็ตามเนื่องจากเกี่ยวข้องกับการสุ่มตัวอย่างพารามิเตอร์จากด้านหลังโครงร่างจึงมีความหมายโดยนัยรูปแบบของการเพิ่มรางวัลปัจจุบันให้มากที่สุดเมื่อเทียบกับการค้นหาข้อมูลเพิ่มเติม เวลาส่วนใหญ่เราจะได้รับพารามิเตอร์ "ตัวอย่าง" ที่อยู่ในส่วนหลักของหลังและการเลือกเครื่องจะคร่าว ๆ ประมาณสูงสุดของรางวัลทันที อย่างไรก็ตามบางครั้งเราจะสุ่มค่าพารามิเตอร์ที่อยู่ในส่วนท้ายของการแจกแจงหลังและในกรณีนั้นเราจะเลือกเครื่องที่ไม่เพิ่มรางวัลทันที - นั่นคือการค้นหา " "เพื่อช่วยเหลือรางวัลในอนาคต

โครงการ ธ อมป์สันยังมีคุณสมบัติที่ดีที่เรามักจะลด "การค้นหา" ของเราเมื่อเราได้รับข้อมูลเพิ่มเติมและเลียนแบบการแลกเปลี่ยนเชิงกลยุทธ์ที่พึงประสงค์ในปัญหาที่เราต้องการเน้นการค้นหาน้อยลงเมื่อเราได้รับข้อมูลเพิ่มเติม ในขณะที่เราเล่นรอบมากขึ้นและได้รับข้อมูลมากขึ้นผู้มาบรรจบกันจะเข้าใกล้ค่าพารามิเตอร์ที่แท้จริงมากขึ้นดังนั้นการสุ่ม "สุ่มตัวอย่าง" ในรูปแบบของ Thompson จะแน่นมากขึ้นรอบค่าพารามิเตอร์ที่จะนำไปสู่ รางวัลทันที ดังนั้นจึงมีแนวโน้มโดยนัยของรูปแบบนี้ที่จะ "มุ่งเน้นการค้นหา" มากกว่าโดยมีข้อมูลน้อยและน้อยกว่า "ค้นหาที่มุ่งเน้น" ในภายหลังเมื่อมีข้อมูลจำนวนมาก

ตอนนี้เมื่อพูดอย่างนี้ข้อเสียเปรียบที่ชัดเจนของแผนการสุ่มตัวอย่างของ ธ ​​อมป์สันก็คือมันไม่ได้คำนึงถึงจำนวนรอบที่เหลือในปัญหา MAB บางครั้งรูปแบบนี้ถูกสร้างขึ้นบนพื้นฐานของเกมที่ไม่มีที่สิ้นสุดและในกรณีนี้ก็ไม่มีปัญหา อย่างไรก็ตามใน MAB มีปัญหากับรอบที่ จำกัด ก็ควรพิจารณาจำนวนรอบที่เหลือเพื่อลด "การค้นหา" ตามจำนวนรอบในอนาคตที่ลดลง (และโดยเฉพาะอย่างยิ่งการเล่นที่ดีที่สุดในรอบสุดท้ายคือการเพิกเฉยต่อการค้นหาอย่างสมบูรณ์และเพียงแค่เดิมพันกับโจรที่ให้ผลตอบแทนสูงสุดตามที่คาดหวังไว้หลัง) แผนการของ Thompson ไม่ได้ทำเช่นนี้ดังนั้นมันจะเล่นเกมที่ จำกัด ซึ่งชัดเจนว่าย่อยได้ดีที่สุดในบางกรณี


1
ฉันหวังว่าฉันจะสามารถตอบสนองนี้ยกนิ้วให้หลายนิ้ว ฉันอาจจะเพิ่มวิธีที่ฉันจะอัปเดต posteriors - ตัวอย่างเช่นถ้า posteriors ถูกแสดงเป็นการแจกแจงปกติ - การปรับปรุงสำหรับค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ posteriors คำนวณอย่างไร ฉันพูดแบบนี้เพราะฉันไม่รู้จักตัวเอง
Mellow

5

ฉันจะให้มันยิงและฉันหวังว่าคุณจะชอบมัน! มีบางสูตรด้านล่างซึ่งอาจทำให้คุณกลัว ฉันไม่หวังเช่นนั้นเพราะฉันจะพยายามทำให้ดีที่สุดเพื่ออธิบายพวกเขาในวิธีที่ง่ายที่สุดที่ฉันสามารถทำได้

นี่คือสองสูตร:

  • ความน่าจะเป็น:P(r|θ,a,x)
  • และด้านหลัง:P(θ|D)

TL; DR

Thompson Sampling ช่วยให้คุณ

  1. เลือกพารามิเตอร์โมเดลแบบสุ่มจากพารามิเตอร์โมเดลทั้งหมดที่คุณคิดว่าเป็นไปได้
  2. ดำเนินการหนึ่งครั้งตามพารามิเตอร์ของโมเดลนั้น ๆ
  3. สังเกตรางวัลที่คุณได้รับจากพารามิเตอร์รุ่นนั้น
  4. เรียนรู้จากประสบการณ์ใหม่นี้และอัปเดตความเชื่อของคุณเกี่ยวกับพารามิเตอร์โมเดลที่เป็นไปได้

ความน่าจะเป็น ??

ความน่าจะเป็นสิ่งที่กำหนดวิธีการที่มีแนวโน้มสิ่งที่มี ในกรณีนี้น่าจะเป็นวิธีการที่กล่าวว่ามีแนวโน้มที่มันคือการที่เราได้รับรางวัลถ้าเล่นการกระทำในบริบทxตัวอย่างเช่นหากฝนตก (บริบท!) และคุณถือร่ม (แอ็คชั่น!) คุณจะแห้ง (รางวัล! :)) ในทางตรงกันข้ามถ้าฝนไม่ตก (บริบท!) และคุณถือร่ม (แอ็คชั่น!) คุณต้องแบกน้ำหนักพิเศษ (รางวัลเชิงลบ! ​​:() ดังนั้นโอกาสจึงเป็นสิ่งสำคัญที่คุณต้องการเข้าใจ หากคุณรู้ทุกอย่างเกี่ยวกับโอกาสที่จะกระทำได้ดีที่สุดa xrax

แล้ววงกลมประหลาดนั่นล่ะ ??

อย่างที่คุณอาจสังเกตเห็นว่าฉันไม่ได้เขียนอะไรเกี่ยวกับวงกลมแปลก ๆซึ่งเรียกว่าทีต้า (นักคณิตศาสตร์มีนิสัยแสดงชิ้นส่วนที่ยากที่สุดโดยให้ตัวอักษรกรีกทำให้ยากต่อการเข้าใจ) นี่แสดงถึงพารามิเตอร์โมเดล พารามิเตอร์เหล่านี้จะถูกใช้เมื่อความสัมพันธ์ระหว่างบริบท + การกระทำและการให้รางวัลนั้นยากขึ้น ตัวอย่างเช่นพารามิเตอร์รุ่นอาจเป็นรางวัลของคุณที่ลดลงถ้าฝน 1 มม. ตกอยู่บนหัวของคุณ พารามิเตอร์โมเดลอื่นอาจระบุว่ารางวัลของคุณจะลดลงเท่าไรหากคุณถือร่ม ฉันเพิ่งพูดว่าความเป็นไปได้คือสิ่งสำคัญที่คุณต้องการเข้าใจ และศูนย์กลางของความน่าจะเป็นคือพารามิเตอร์ของแบบจำลอง หากคุณรู้จักพารามิเตอร์โมเดลθ θθθθคุณรู้ว่าบริบท + การกระทำเกี่ยวข้องกับการให้รางวัลและเป็นเรื่องง่ายที่จะทำสิ่งที่ดีที่สุด

แล้วเราจะรู้จักพารามิเตอร์โมเดลเหล่านี้อย่างไรเพื่อที่ฉันจะได้รับรางวัลสูงสุด?

นั่นเป็นคำถามสำคัญสำหรับปัญหาโจรติดอาวุธ จริงๆแล้วมันมีสองส่วน คุณต้องการทำความรู้จักกับพารามิเตอร์ของโมเดลอย่างแม่นยำโดยสำรวจการกระทำประเภทต่างๆในบริบทที่แตกต่างกัน แต่ถ้าคุณรู้อยู่แล้วว่าการกระทำใดที่ดีสำหรับบริบทเฉพาะคุณต้องการใช้ประโยชน์จากการกระทำนั้นและรับรางวัลมากที่สุด ดังนั้นหากคุณไม่แน่ใจเกี่ยวกับพารามิเตอร์โมเดลคุณอาจต้องการสำรวจเพิ่มเติม หากคุณค่อนข้างแน่ใจเกี่ยวกับพารามิเตอร์โมเดลของเราคุณก็ค่อนข้างแน่ใจว่าจะต้องดำเนินการใด เรื่องนี้เป็นที่รู้จักกันในนามการสำรวจกับการแสวงหาผลประโยชน์θθθ

คุณไม่ได้พูดอะไรเกี่ยวกับคนหลังนี้

กุญแจสำคัญในการมีพฤติกรรมที่ดีที่สุดนี้คือ (UN) ของความเชื่อมั่นเกี่ยวกับพารามิเตอร์แบบ\และผู้โพสต์พูดตรงๆว่า: รับรางวัลก่อนหน้านี้ทั้งหมดที่เราได้รับจากการกระทำก่อนหน้าในบริบทก่อนหน้านี้คุณรู้เรื่องมากแค่ไหน ตัวอย่างเช่นหากคุณไม่เคยออกไปข้างนอกคุณไม่ทราบว่าคุณจะมีความสุขแค่ไหนเมื่อฝนตกบนหัว กล่าวอีกนัยหนึ่งคุณมีความไม่แน่นอนอย่างมากเกี่ยวกับพารามิเตอร์แบบจำลองความทุกข์เมื่อฝนตกบนหัว หากคุณอยู่ในสายฝนโดยมีและไม่มีร่มคุณสามารถเริ่มเรียนรู้บางอย่างเกี่ยวกับพารามิเตอร์โมเดลที่ไม่ชัดเจนนี้θθθ

ตอนนี้ Thomson Sampling แนะนำให้ทำอย่างไรกับความไม่แน่นอนเหล่านี้?

Thomson Sampling แนะนำสิ่งที่ง่ายมากเพียงแค่เลือกพารามิเตอร์แบบจำลองสุ่มจากหลังของคุณทำการกระทำและสังเกตสิ่งที่เกิดขึ้น ตัวอย่างเช่นเมื่อคุณไม่เคยออกไปข้างนอกมาก่อนพารามิเตอร์ unhappiness-when-rain-on-head สามารถเป็นอะไรก็ได้ ดังนั้นเราแค่เลือกอันหนึ่งเราคิดว่าเราไม่มีความสุขจริงๆเมื่อฝนตกลงมาบนหัวของเรา เราเห็นว่าฝนกำลังตก (บริบท) ดังนั้นเราจึงถือร่ม (แอ็คชั่น) เพราะพารามิเตอร์โมเดลของเราบอกเราว่านี่คือวิธีที่เราจะได้รับรางวัลสูงสุด และแน่นอนคุณสังเกตว่าคุณรู้สึกไม่พอใจเล็กน้อยจากการเดินกลางสายฝนด้วยร่ม แต่ไม่เศร้าจริงๆ เราเรียนรู้จากสิ่งนี้ว่าฝน + ร่มไม่พอใจ ครั้งต่อไปฝนจะตกคุณเลือกความเชื่อแบบสุ่มอีกครั้งว่าเกิดอะไรขึ้นเมื่อฝนตกลงมาบนหัวของคุณ คราวนี้อาจเป็นได้ว่ามันไม่รบกวนคุณเลย อย่างไรก็ตาม เมื่อคุณลงมาถึงครึ่งทางแล้วคุณก็เปียกแฉะและเรียนรู้ว่าฝนที่ไม่มีร่มนั้นเลวร้ายจริงๆ สิ่งนี้ช่วยลดความไม่แน่นอนของคุณเกี่ยวกับความไม่พอใจเมื่อฝนตกบนหัวเพราะตอนนี้คุณรู้แล้วว่ามันอาจจะสูง

ฟังดูง่ายมาก !!

ใช่มันไม่ซับซ้อน ส่วนที่ยากคือการสุ่มตัวอย่างจากพารามิเตอร์รุ่นหลัง การรับและการบำรุงรักษาการกระจายตัวเหนือพารามิเตอร์รุ่นทั้งหมดของคุณที่เหมาะสมสำหรับปัญหาเฉพาะของคุณนั้นยาก แต่ ... มันทำได้แน่นอน :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.