ฉันจะให้มันยิงและฉันหวังว่าคุณจะชอบมัน! มีบางสูตรด้านล่างซึ่งอาจทำให้คุณกลัว ฉันไม่หวังเช่นนั้นเพราะฉันจะพยายามทำให้ดีที่สุดเพื่ออธิบายพวกเขาในวิธีที่ง่ายที่สุดที่ฉันสามารถทำได้
นี่คือสองสูตร:
- ความน่าจะเป็น:P( r | θ , a , x )
- และด้านหลัง:P( θ | D )
TL; DR
Thompson Sampling ช่วยให้คุณ
- เลือกพารามิเตอร์โมเดลแบบสุ่มจากพารามิเตอร์โมเดลทั้งหมดที่คุณคิดว่าเป็นไปได้
- ดำเนินการหนึ่งครั้งตามพารามิเตอร์ของโมเดลนั้น ๆ
- สังเกตรางวัลที่คุณได้รับจากพารามิเตอร์รุ่นนั้น
- เรียนรู้จากประสบการณ์ใหม่นี้และอัปเดตความเชื่อของคุณเกี่ยวกับพารามิเตอร์โมเดลที่เป็นไปได้
ความน่าจะเป็น ??
ความน่าจะเป็นสิ่งที่กำหนดวิธีการที่มีแนวโน้มสิ่งที่มี ในกรณีนี้น่าจะเป็นวิธีการที่กล่าวว่ามีแนวโน้มที่มันคือการที่เราได้รับรางวัลถ้าเล่นการกระทำในบริบทxตัวอย่างเช่นหากฝนตก (บริบท!) และคุณถือร่ม (แอ็คชั่น!) คุณจะแห้ง (รางวัล! :)) ในทางตรงกันข้ามถ้าฝนไม่ตก (บริบท!) และคุณถือร่ม (แอ็คชั่น!) คุณต้องแบกน้ำหนักพิเศษ (รางวัลเชิงลบ! :() ดังนั้นโอกาสจึงเป็นสิ่งสำคัญที่คุณต้องการเข้าใจ หากคุณรู้ทุกอย่างเกี่ยวกับโอกาสที่จะกระทำได้ดีที่สุดa xRax
แล้ววงกลมประหลาดนั่นล่ะ ??
อย่างที่คุณอาจสังเกตเห็นว่าฉันไม่ได้เขียนอะไรเกี่ยวกับวงกลมแปลก ๆซึ่งเรียกว่าทีต้า (นักคณิตศาสตร์มีนิสัยแสดงชิ้นส่วนที่ยากที่สุดโดยให้ตัวอักษรกรีกทำให้ยากต่อการเข้าใจ) นี่แสดงถึงพารามิเตอร์โมเดล พารามิเตอร์เหล่านี้จะถูกใช้เมื่อความสัมพันธ์ระหว่างบริบท + การกระทำและการให้รางวัลนั้นยากขึ้น ตัวอย่างเช่นพารามิเตอร์รุ่นอาจเป็นรางวัลของคุณที่ลดลงถ้าฝน 1 มม. ตกอยู่บนหัวของคุณ พารามิเตอร์โมเดลอื่นอาจระบุว่ารางวัลของคุณจะลดลงเท่าไรหากคุณถือร่ม ฉันเพิ่งพูดว่าความเป็นไปได้คือสิ่งสำคัญที่คุณต้องการเข้าใจ และศูนย์กลางของความน่าจะเป็นคือพารามิเตอร์ของแบบจำลอง หากคุณรู้จักพารามิเตอร์โมเดลθ θθθθคุณรู้ว่าบริบท + การกระทำเกี่ยวข้องกับการให้รางวัลและเป็นเรื่องง่ายที่จะทำสิ่งที่ดีที่สุด
แล้วเราจะรู้จักพารามิเตอร์โมเดลเหล่านี้อย่างไรเพื่อที่ฉันจะได้รับรางวัลสูงสุด?
นั่นเป็นคำถามสำคัญสำหรับปัญหาโจรติดอาวุธ จริงๆแล้วมันมีสองส่วน คุณต้องการทำความรู้จักกับพารามิเตอร์ของโมเดลอย่างแม่นยำโดยสำรวจการกระทำประเภทต่างๆในบริบทที่แตกต่างกัน แต่ถ้าคุณรู้อยู่แล้วว่าการกระทำใดที่ดีสำหรับบริบทเฉพาะคุณต้องการใช้ประโยชน์จากการกระทำนั้นและรับรางวัลมากที่สุด ดังนั้นหากคุณไม่แน่ใจเกี่ยวกับพารามิเตอร์โมเดลคุณอาจต้องการสำรวจเพิ่มเติม หากคุณค่อนข้างแน่ใจเกี่ยวกับพารามิเตอร์โมเดลของเราคุณก็ค่อนข้างแน่ใจว่าจะต้องดำเนินการใด เรื่องนี้เป็นที่รู้จักกันในนามการสำรวจกับการแสวงหาผลประโยชน์θθθ
คุณไม่ได้พูดอะไรเกี่ยวกับคนหลังนี้
กุญแจสำคัญในการมีพฤติกรรมที่ดีที่สุดนี้คือ (UN) ของความเชื่อมั่นเกี่ยวกับพารามิเตอร์แบบ\และผู้โพสต์พูดตรงๆว่า: รับรางวัลก่อนหน้านี้ทั้งหมดที่เราได้รับจากการกระทำก่อนหน้าในบริบทก่อนหน้านี้คุณรู้เรื่องมากแค่ไหน ตัวอย่างเช่นหากคุณไม่เคยออกไปข้างนอกคุณไม่ทราบว่าคุณจะมีความสุขแค่ไหนเมื่อฝนตกบนหัว กล่าวอีกนัยหนึ่งคุณมีความไม่แน่นอนอย่างมากเกี่ยวกับพารามิเตอร์แบบจำลองความทุกข์เมื่อฝนตกบนหัว หากคุณอยู่ในสายฝนโดยมีและไม่มีร่มคุณสามารถเริ่มเรียนรู้บางอย่างเกี่ยวกับพารามิเตอร์โมเดลที่ไม่ชัดเจนนี้θθθ
ตอนนี้ Thomson Sampling แนะนำให้ทำอย่างไรกับความไม่แน่นอนเหล่านี้?
Thomson Sampling แนะนำสิ่งที่ง่ายมากเพียงแค่เลือกพารามิเตอร์แบบจำลองสุ่มจากหลังของคุณทำการกระทำและสังเกตสิ่งที่เกิดขึ้น ตัวอย่างเช่นเมื่อคุณไม่เคยออกไปข้างนอกมาก่อนพารามิเตอร์ unhappiness-when-rain-on-head สามารถเป็นอะไรก็ได้ ดังนั้นเราแค่เลือกอันหนึ่งเราคิดว่าเราไม่มีความสุขจริงๆเมื่อฝนตกลงมาบนหัวของเรา เราเห็นว่าฝนกำลังตก (บริบท) ดังนั้นเราจึงถือร่ม (แอ็คชั่น) เพราะพารามิเตอร์โมเดลของเราบอกเราว่านี่คือวิธีที่เราจะได้รับรางวัลสูงสุด และแน่นอนคุณสังเกตว่าคุณรู้สึกไม่พอใจเล็กน้อยจากการเดินกลางสายฝนด้วยร่ม แต่ไม่เศร้าจริงๆ เราเรียนรู้จากสิ่งนี้ว่าฝน + ร่มไม่พอใจ ครั้งต่อไปฝนจะตกคุณเลือกความเชื่อแบบสุ่มอีกครั้งว่าเกิดอะไรขึ้นเมื่อฝนตกลงมาบนหัวของคุณ คราวนี้อาจเป็นได้ว่ามันไม่รบกวนคุณเลย อย่างไรก็ตาม เมื่อคุณลงมาถึงครึ่งทางแล้วคุณก็เปียกแฉะและเรียนรู้ว่าฝนที่ไม่มีร่มนั้นเลวร้ายจริงๆ สิ่งนี้ช่วยลดความไม่แน่นอนของคุณเกี่ยวกับความไม่พอใจเมื่อฝนตกบนหัวเพราะตอนนี้คุณรู้แล้วว่ามันอาจจะสูง
ฟังดูง่ายมาก !!
ใช่มันไม่ซับซ้อน ส่วนที่ยากคือการสุ่มตัวอย่างจากพารามิเตอร์รุ่นหลัง การรับและการบำรุงรักษาการกระจายตัวเหนือพารามิเตอร์รุ่นทั้งหมดของคุณที่เหมาะสมสำหรับปัญหาเฉพาะของคุณนั้นยาก แต่ ... มันทำได้แน่นอน :)