คำถามติดแท็ก multiarmed-bandit

3
ขั้นตอนวิธีโจรที่ดีที่สุด?
อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

4
สถานการณ์ในชีวิตจริงประเภทใดที่เราสามารถใช้อัลกอริธึมแบบหลายแขนโจรได้?
โจรหลายแขนทำงานได้ดีในสถานการณ์ที่คุณมีทางเลือกและคุณไม่แน่ใจว่าสิ่งใดจะเพิ่มความเป็นอยู่ที่ดีที่สุดของคุณ คุณสามารถใช้อัลกอริทึมสำหรับสถานการณ์ชีวิตจริงบางอย่าง เป็นตัวอย่างการเรียนรู้อาจเป็นสาขาที่ดี: หากเด็กกำลังเรียนรู้ช่างไม้และเขาไม่ดีที่มันอัลกอริทึมจะบอกเขา / เธอว่าเขา / เธออาจต้องดำเนินการต่อไป หากเขา / เธอทำได้ดีอัลกอริทึมจะบอกให้เขา / เธอเรียนรู้ฟิลด์นั้นต่อไป การออกเดทเป็นฟิลด์ที่ดีเช่นกัน: คุณเป็นผู้ชายที่พยายามอย่างมากในการตามหาผู้หญิง อย่างไรก็ตามความพยายามของคุณจะไม่ได้รับการยืนยันอย่างแน่นอน อัลกอริทึมควร "เล็กน้อย" (หรืออย่างยิ่ง) ทำให้คุณขยับเขยื้อนต่อไป สถานการณ์ในชีวิตจริงอื่น ๆ ที่เราสามารถใช้อัลกอริทึมโจรหลายแขนสำหรับ? PS: หากคำถามกว้างเกินไปโปรดแสดงความคิดเห็น หากมีฉันทามติฉันจะลบคำถามของฉัน

1
ฟังก์ชั่นค่าใช้จ่ายสำหรับการโจรตามบริบท
ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probabilityแต่ละบริบท ในกรณีของฉันactionและprobabilityง่ายต่อการเข้าใจ: actionเป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobabilityเป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก) ความคิดบางอย่างที่ฉันมีคือ: ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก) ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก) ราคา = -1 …

2
Thompson Sampling ในเงื่อนไขของคนธรรมดาคืออะไร
ฉันไม่สามารถเข้าใจThompson Samplingและวิธีการทำงาน ฉันอ่านเกี่ยวกับ Multi Arm Bandit และหลังจากอ่านอัลกอริทึมผูกมัดความเชื่อมั่นบนข้อความจำนวนมากชี้ให้เห็นว่า Thompson Sampling ทำงานได้ดีกว่า UCB Thompson Sampling ในแง่ของคนธรรมดาหรือง่ายๆคืออะไร? อย่าลังเลที่จะให้บทความอ้างอิงเพื่อความเข้าใจเพิ่มเติม

1
อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?
ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจεε\epsilon มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?

1
โจรติดอาวุธหลายคนสำหรับการแจกรางวัลทั่วไป
ฉันกำลังทำงานกับปัญหาโจรติดอาวุธที่เราไม่มีข้อมูลเกี่ยวกับการแจกรางวัล ฉันพบเอกสารจำนวนมากที่รับประกันขอบเขตเสียใจสำหรับการแจกจ่ายที่มีขอบเขตที่ทราบและสำหรับการแจกแจงทั่วไปที่มีการสนับสนุนใน [0,1] ฉันต้องการทราบว่ามีวิธีการทำงานได้ดีในสภาพแวดล้อมที่การแจกรางวัลไม่ได้รับประกันเกี่ยวกับการสนับสนุนหรือไม่ ฉันพยายามคำนวณขีดจำกัดความอดทนแบบไม่ใช้พารามิเตอร์และใช้ตัวเลขนั้นเพื่อปรับการกระจายรางวัลเพื่อให้ฉันสามารถใช้อัลกอริทึม 2 ที่ระบุไว้ในบทความนี้ ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ) ไม่มีใครคิดว่าวิธีนี้จะใช้งานได้? ถ้าไม่ทุกคนสามารถชี้ให้ฉันไปยังจุดที่เหมาะสม? ขอบคุณมัด!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.