คำถามติดแท็ก online-learning

1
การแลกเปลี่ยนเวลา / ข้อผิดพลาดที่ดีที่สุดสำหรับการแก้ปัญหาโดยประมาณของโปรแกรมเชิงเส้นคืออะไร
เพื่อความเป็นรูปธรรมพิจารณาแผ่นเสียงสำหรับการแก้เกมศูนย์ผลรวมสองผู้เล่นที่ผู้เล่นแต่ละคนมีการกระทำสมมติว่าแต่ละรายการของเมทริกซ์ผลตอบแทนคือAมากที่สุด 1 ในค่าสัมบูรณ์ เพื่อความง่ายเราไม่ได้ตั้งสมมติฐานnnnAAA สมมติว่า runtime สามารถใช้เพื่อประมาณค่าของเกมนี้TTT เทคนิคหนึ่งสำหรับการประมาณค่านี้คือวิธีการปรับปรุงแบบหลายค่า (เรียกว่าการเรียนรู้แบบไม่เสียใจในบริบทนี้) สิ่งนี้ทำให้เกิดข้อผิดพลาดของโดยที่ ˜ Oซ่อนปัจจัยการบันทึกO~(n/T−−−−√)O~(n/T)\tilde O(\sqrt{n/T})O~O~\tilde O ผมไม่ทราบว่าสิ่งที่ภูมิทัศน์ข้อผิดพลาดที่ดีที่สุดสำหรับวิธีการที่รู้จักกันจุดภายในรูปลักษณ์ที่ต้องการ แต่ฉันเดาผิดพลาดเป็นสิ่งที่ต้องการ )O(exp(−T/n3))O(exp⁡(−T/n3))O(\exp(-T/n^3)) วิธีการปรับปรุงการคูณให้ข้อผิดพลาดที่เป็นพหุนามผกผันในTวิธีการจุดภายในให้ข้อผิดพลาดที่มีขนาดเล็กชี้แจงในT ข้อผิดพลาดของสิ่งที่ดีที่สุดของทั้งสองจึงค่อยๆลดลงชั่วขณะหนึ่งจนกระทั่งจุดด้านในจับขึ้นหลังจากนั้นข้อผิดพลาดก็ตกจากหน้าผา สัญชาตญาณของฉันขัดต่อการแลกเปลี่ยนเวลา / ข้อผิดพลาดที่ดีที่สุดเท่าที่จะทำได้ด้วยวิธีนี้TTTTTT คำถามของฉัน : มีอัลกอริทึมสำหรับการโปรแกรมเชิงเส้นโดยประมาณที่ทำให้มุมของเส้นโค้งเวลา / ข้อผิดพลาดการค้าราบรื่นขึ้นหรือไม่? นั่นคืออัลกอริธึมที่ทำอย่างน้อยที่สุดเท่าที่จะทำได้ดีที่สุดสำหรับทั้งสองสำหรับค่าของพารามิเตอร์เวลาที่มีอยู่และมีการแลกเปลี่ยนเวลา / ข้อผิดพลาดที่ค่อนข้างราบรื่น วิธีที่ชาญฉลาดยิ่งขึ้นในการรวมเทคนิคการอัพเดทภายในและการปรับปรุงแบบทวีคูณมากกว่าการใช้สองวิธีที่ดีกว่ามาใช้เป็นวิธีหนึ่งที่จะได้อัลกอริธึมดังกล่าว การอ้างอิง : การปรับปรุงหลายหลากโดยทั่วไป: http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf การปรับปรุงแบบทวีคูณสำหรับเกมที่มีผลรวมเป็นศูนย์: http://dx.doi.org/10.1016/0167-6377(95)00032-0 การปรับปรุงหลายหลากสำหรับแผ่นปิด / บรรจุ LPs: http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf กระดาษจุดภายในเดิม: http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf มหาดไทยชี้จากมุมมองทางคณิตศาสตร์ที่ใช้: การเขียนโปรแกรมแบบไม่เชิงเส้นของ Bertsekasหัวข้อ 4.1.1

1
ปัญหาของ Warren Buffett
นี่เป็นนามธรรมของปัญหาการเรียนรู้ออนไลน์ / โจรที่ฉันได้ทำงานในช่วงฤดูร้อน ฉันไม่เคยเห็นปัญหาแบบนี้มาก่อนและมันก็ดูน่าสนใจทีเดียว หากคุณรู้จักงานที่เกี่ยวข้องใด ๆ ฉันขอขอบคุณการอ้างอิง ปัญหา การตั้งค่าเป็นของโจรติดอาวุธหลายคน คุณมีแขนไม่มี แขนแต่ละอัน i มีการแจกแจงความน่าจะเป็นที่ไม่รู้จัก แต่แน่นอนผ่านการให้รางวัลซึ่งสามารถรับได้โดยการเล่น เพื่อความเป็นรูปธรรมลองสมมุติว่าแขนแต่ละข้างของฉันจ่ายรางวัล $ 10 พร้อมความน่าจะเป็นp [i]และให้รางวัล $ 0 กับปัญหา 1-P [ผม] ในทุกรอบทีคุณเลือกชุดS [t]แขนเล่น สำหรับแขนแต่ละข้างที่คุณเลือกคุณจะต้องจ่ายค่าธรรมเนียม$ 1ล่วงหน้า สำหรับแขนที่เลือกแต่ละครั้งคุณจะได้รับรางวัลซึ่งมาจากการแจกแจงความน่าจะเป็นของรางวัล (ไม่ทราบ) ที่แขน รางวัลทั้งหมดเข้าสู่บัญชีธนาคารของคุณและค่าธรรมเนียมทั้งหมดจะถูกหักออกจากบัญชีนั้น นอกจากนี้คุณจะได้รับเครดิต$ 1เมื่อเริ่มต้นของการวนซ้ำทุกครั้ง ปัญหาคือการพัฒนานโยบายในการเลือกชุดย่อยของอาวุธที่จะเล่นในการทำซ้ำแต่ละครั้งเพื่อเพิ่มผลกำไร (เช่นรางวัลลบด้วยค่าธรรมเนียมสำหรับการเล่น) ในระยะเวลาที่ยาวนานพอสมควรภายใต้ข้อ จำกัด ที่ต้องรักษายอดเงินในบัญชี ทุกเวลา. ฉันไม่ได้ระบุว่าการแจกรางวัลแบบต่อแขนจะถูกเลือกจากการแจกแจงก่อนหน้าหรือการเลือกโดยฝ่ายตรงข้าม ตัวเลือกทั้งสองมีเหตุผล การกำหนดปฏิปักษ์เป็นที่น่าสนใจสำหรับฉันมากขึ้น แต่อาจยากที่จะทำให้ก้าวหน้า ฝ่ายตรงข้ามเลือกเวกเตอร์ (D1, D2, .. , DN) …

2
เสียใจภายในในการเพิ่มประสิทธิภาพนูนออนไลน์
Zinkevich ของ "การเพิ่มประสิทธิภาพออนไลน์นูน" ( http://www.cs.cmu.edu/~maz/publications/ICML03.pdf ) generalizes "ลดความเสียใจ" เรียนรู้อัลกอริธึมจากการตั้งค่าเชิงเส้นการตั้งค่านูนและ "นอกเขตเสียใจ" . มีลักษณะทั่วไปที่คล้ายกันสำหรับเสียใจภายใน? (ฉันไม่แน่ใจโดยสิ้นเชิงแม้จะหมายถึงอะไรก็ตาม)

1
การแยกระหว่างสภาวะสมดุลที่มีความสัมพันธ์หยาบและสภาวะสมดุลที่สัมพันธ์กัน
ฉันกำลังมองหาตัวอย่างของเทคนิคในการพิสูจน์ราคาขอบเขตอนาธิปไตยที่มีอำนาจในการแยกราคาของความโกลาหลผ่านดุลยภาพที่มีความสัมพันธ์กันแบบหยาบ ๆ ชุดการเปลี่ยนแปลงที่ไม่มีการสลับความเสียใจ) มีการแบ่งแยกตามธรรมชาติของชนิดนี้หรือไม่ สิ่งกีดขวางทางแยกสองคนนี้คือวิธีที่ธรรมดาที่สุด (และร่วมกัน) เพื่อพิสูจน์ว่าราคาอนาธิปไตยขอบเขตคือการสังเกตเพียงว่าในสมดุลไม่มีผู้เล่นคนใดมีแรงจูงใจที่จะเบี่ยงเบนไปจากการกระทำของเขาที่อ็อปเอาท์ เพื่อเชื่อมโยงสวัสดิการสังคมในโครงร่างบางอย่างกับสวัสดิการสังคมของ OPT น่าเสียดายที่การพิสูจน์ว่าราคาของอนาธิปไตยเหนือดุลยภาพที่มีความสัมพันธ์กันนั้นมีขนาดเล็กเพียง แต่พิจารณาการเบี่ยงเบนของผู้เล่นแต่ละคนไปสู่การกระทำทางเลือกเดียว (กล่าวว่าการกระทำจาก OPT) จำเป็นต้องมีดุลยภาพที่สัมพันธ์กันด้วยเช่นกัน นี่เป็นเพราะความแตกต่างเพียงอย่างเดียวระหว่างดุลยภาพที่มีความสัมพันธ์หยาบและดุลยภาพที่สัมพันธ์กันคือความสามารถของผู้เล่นในสมดุลที่มีความสัมพันธ์กันเพื่อพิจารณาพร้อมกันการเบี่ยงเบนหลาย ๆ ครั้งปรับสัญญาณของโปรไฟล์การเล่นที่ดึงออกมาจากการกระจายสมดุล มีการแบ่งแยกดังกล่าวหรือไม่?

5
การอ้างอิงที่ดีในการทำความเข้าใจการเรียนรู้ออนไลน์คืออะไร
โดยเฉพาะฉันขอทรัพยากรเพื่อเรียนรู้เกี่ยวกับระบบการเรียนรู้ของเครื่องที่สามารถปรับปรุงเครือข่ายความเชื่อของตน (หรือเทียบเท่า) ระหว่างการดำเนินการ ฉันวิ่งข้ามไปไม่กี่ครั้งแม้ว่าฉันจะทำบุ๊กมาร์กไม่สำเร็จ อย่างที่คุณอาจจินตนาการมันเป็นหัวข้อที่ค่อนข้างท้าทายในการค้นหาบนอินเทอร์เน็ต
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.