สถิติและข้อมูลขนาดใหญ่ multiarmed-bandit

3

อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

สถานการณ์ในชีวิตจริงประเภทใดที่เราสามารถใช้อัลกอริธึมแบบหลายแขนโจรได้?

โจรหลายแขนทำงานได้ดีในสถานการณ์ที่คุณมีทางเลือกและคุณไม่แน่ใจว่าสิ่งใดจะเพิ่มความเป็นอยู่ที่ดีที่สุดของคุณ คุณสามารถใช้อัลกอริทึมสำหรับสถานการณ์ชีวิตจริงบางอย่าง เป็นตัวอย่างการเรียนรู้อาจเป็นสาขาที่ดี: หากเด็กกำลังเรียนรู้ช่างไม้และเขาไม่ดีที่มันอัลกอริทึมจะบอกเขา / เธอว่าเขา / เธออาจต้องดำเนินการต่อไป หากเขา / เธอทำได้ดีอัลกอริทึมจะบอกให้เขา / เธอเรียนรู้ฟิลด์นั้นต่อไป การออกเดทเป็นฟิลด์ที่ดีเช่นกัน: คุณเป็นผู้ชายที่พยายามอย่างมากในการตามหาผู้หญิง อย่างไรก็ตามความพยายามของคุณจะไม่ได้รับการยืนยันอย่างแน่นอน อัลกอริทึมควร "เล็กน้อย" (หรืออย่างยิ่ง) ทำให้คุณขยับเขยื้อนต่อไป สถานการณ์ในชีวิตจริงอื่น ๆ ที่เราสามารถใช้อัลกอริทึมโจรหลายแขนสำหรับ? PS: หากคำถามกว้างเกินไปโปรดแสดงความคิดเห็น หากมีฉันทามติฉันจะลบคำถามของฉัน

15 algorithms reinforcement-learning multiarmed-bandit

1

ฟังก์ชั่นค่าใช้จ่ายสำหรับการโจรตามบริบท

ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probabilityแต่ละบริบท ในกรณีของฉันactionและprobabilityง่ายต่อการเข้าใจ: actionเป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobabilityเป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก) ความคิดบางอย่างที่ฉันมีคือ: ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก) ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก) ราคา = -1 …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Thompson Sampling ในเงื่อนไขของคนธรรมดาคืออะไร

ฉันไม่สามารถเข้าใจThompson Samplingและวิธีการทำงาน ฉันอ่านเกี่ยวกับ Multi Arm Bandit และหลังจากอ่านอัลกอริทึมผูกมัดความเชื่อมั่นบนข้อความจำนวนมากชี้ให้เห็นว่า Thompson Sampling ทำงานได้ดีกว่า UCB Thompson Sampling ในแง่ของคนธรรมดาหรือง่ายๆคืออะไร? อย่าลังเลที่จะให้บทความอ้างอิงเพื่อความเข้าใจเพิ่มเติม

14 machine-learning definition multiarmed-bandit

1

อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?

ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจεε\epsilon มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?

13 machine-learning reinforcement-learning multiarmed-bandit

1

โจรติดอาวุธหลายคนสำหรับการแจกรางวัลทั่วไป

ฉันกำลังทำงานกับปัญหาโจรติดอาวุธที่เราไม่มีข้อมูลเกี่ยวกับการแจกรางวัล ฉันพบเอกสารจำนวนมากที่รับประกันขอบเขตเสียใจสำหรับการแจกจ่ายที่มีขอบเขตที่ทราบและสำหรับการแจกแจงทั่วไปที่มีการสนับสนุนใน [0,1] ฉันต้องการทราบว่ามีวิธีการทำงานได้ดีในสภาพแวดล้อมที่การแจกรางวัลไม่ได้รับประกันเกี่ยวกับการสนับสนุนหรือไม่ ฉันพยายามคำนวณขีดจำกัดความอดทนแบบไม่ใช้พารามิเตอร์และใช้ตัวเลขนั้นเพื่อปรับการกระจายรางวัลเพื่อให้ฉันสามารถใช้อัลกอริทึม 2 ที่ระบุไว้ในบทความนี้ ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ) ไม่มีใครคิดว่าวิธีนี้จะใช้งานได้? ถ้าไม่ทุกคนสามารถชี้ให้ฉันไปยังจุดที่เหมาะสม? ขอบคุณมัด!

11 references multiarmed-bandit

คำถามติดแท็ก multiarmed-bandit