มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่?
ตัวอย่างเดียวที่ฉันพบบนอินเทอร์เน็ตเป็นของตัวแทนเกม ฉันเข้าใจว่า VNC ควบคุมอินพุตให้กับเกมผ่านเครือข่ายเสริมแรง เป็นไปได้ไหมที่จะตั้งค่าด้วยซอฟต์แวร์ CAD?
มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่?
ตัวอย่างเดียวที่ฉันพบบนอินเทอร์เน็ตเป็นของตัวแทนเกม ฉันเข้าใจว่า VNC ควบคุมอินพุตให้กับเกมผ่านเครือข่ายเสริมแรง เป็นไปได้ไหมที่จะตั้งค่าด้วยซอฟต์แวร์ CAD?
คำตอบ:
หนึ่งในตัวอย่างที่ยอดเยี่ยมของการเรียนรู้การเสริมแรงคือเฮลิคอปเตอร์บินอัตโนมัติ ฉันมีโอกาสเรียนรู้บางสิ่งที่ทำโดย Andrew Ng และคนอื่น ๆ เมื่อเร็ว ๆ นี้ นี่คือบทความวิจัยกระดาษ มีเอกสารอื่นที่คล้ายคลึงกันด้วย คุณสามารถ google พวกเขาหากคุณต้องการเรียนรู้เพิ่มเติม
นอกจากนี้คุณยังสามารถดูได้ในการดำเนินการในในวิดีโอ YouTube นี้
นี่เป็นอีกแอปพลิเคชั่นทางการเงินที่แตกต่างอย่างสิ้นเชิงโดยสิ้นเชิง
คุณจะเห็นตัวอย่างเกมจำนวนมากในวรรณคดีการเรียนรู้การเสริมแรงเนื่องจากสภาพแวดล้อมของเกมสามารถเขียนรหัสได้อย่างมีประสิทธิภาพและทำงานอย่างรวดเร็วบนคอมพิวเตอร์เครื่องเดียวที่สามารถบรรจุสภาพแวดล้อมและตัวแทนได้ สำหรับเกมคลาสสิกเช่นแบ็คแกมมอนหมากฮอสหมากรุกไปแล้วมีผู้เชี่ยวชาญของมนุษย์ที่เราสามารถเปรียบเทียบผลลัพธ์ได้ เกมบางเกมหรือเกมที่มีสภาพแวดล้อมคล้ายเกมง่าย ๆ มักใช้เพื่อเปรียบเทียบวิธีการที่แตกต่างกันเช่นตัวเลขหลักที่เขียนด้วยลายมือของ MNIST ใช้สำหรับเปรียบเทียบวิธีการเรียนรู้แบบมีผู้สอน
มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่?
ใช่. คุณสามารถใช้แนวทางการเรียนรู้เสริมได้ทุกเมื่อคุณสามารถกำหนดกรอบปัญหาในฐานะตัวแทนที่ทำหน้าที่ภายในสภาพแวดล้อมที่สามารถแจ้งให้ทราบถึงสถานะของรัฐและมูลค่าของรางวัลที่มีอิทธิพลต่อเป้าหมาย อย่างเป็นทางการมากขึ้นทฤษฎีการเรียนรู้การเสริมแรงนั้นยึดตามวิธีแก้ปัญหาของกระบวนการตัดสินใจของมาร์คอฟดังนั้นหากคุณสามารถอธิบายคำอธิบายปัญหาของคุณกับ MDP ได้คุณสามารถใช้เทคนิคต่าง ๆ ที่ใช้ใน RL เช่น Q-learning, SARSA, REINFORCE ความพอดีกับทฤษฎีนี้ไม่จำเป็นต้องสมบูรณ์แบบสำหรับระบบผลลัพธ์ที่จะทำงานตัวอย่างเช่นคุณสามารถรักษาสถานะที่ไม่รู้จักหรือสังเกตอย่างไม่ถูกต้องว่าเป็นการสุ่มอย่างมีประสิทธิภาพต่อตัวแทนและพิจารณาสภาพแวดล้อมแบบสุ่มนี้
นี่คือตัวอย่างของการใช้งานที่เป็นไปได้สำหรับการเสริมแรงการเรียนรู้นอกเกมสันทนาการ:
ตรรกะควบคุมสำหรับหุ่นยนต์เครื่องยนต์เช่นเรียนรู้ที่จะพลิกแพนเค้กและตัวอย่างอื่น ๆ ที่นี่การวัดสภาพแวดล้อมทำโดยเซ็นเซอร์ทางกายภาพบนหุ่นยนต์ รางวัลจะมอบให้สำหรับการทำเป้าหมายให้สำเร็จ แต่อาจจะปรับเพื่อความนุ่มนวลการใช้พลังงานเชิงเศรษฐศาสตร์เป็นต้นตัวแทนเลือกการกระทำระดับต่ำเช่นแรงบิดมอเตอร์หรือตำแหน่งรีเลย์ ในทางทฤษฎีอาจมีเอเจนต์ซ้อนกันที่คนระดับสูงเลือกเป้าหมายสำหรับคนระดับล่าง - เช่นหุ่นยนต์อาจตัดสินใจในระดับสูงระหว่างการทำงานหนึ่งในสามอย่างที่ต้องย้ายไปยังสถานที่ต่างกันและในระดับที่ต่ำกว่าอาจเป็น ตัดสินใจเกี่ยวกับวิธีการควบคุมมอเตอร์เพื่อย้ายหุ่นยนต์ไปยังเป้าหมายที่เลือกไว้
รถยนต์ขับเคลื่อนด้วยตนเอง แม้ว่าจะมีการโฟกัสจำนวนมากในการตีความเซ็นเซอร์ - การมองเห็นเครื่องหมายถนนคนเดินเท้า ฯลฯ ระบบควบคุมจำเป็นต้องมีเพื่อเลือกคันเร่งเบรกและพวงมาลัย
การซื้อขายทางการเงินอัตโนมัติ อาจเป็นเกมสำหรับบางคนมีผลที่เกิดขึ้นจริงในโลกที่ชัดเจน สัญญาณรางวัลนั้นง่ายพอและสามารถปรับ RL เพื่อให้ได้กำไรในระยะสั้นหรือระยะยาว
เป็นไปได้ไหมที่จะตั้งค่านี้ด้วยซอฟต์แวร์ CAD?
ในทางทฤษฎีแล้วใช่ แต่ฉันไม่รู้ว่าสิ่งใดที่สามารถทำได้ในทางปฏิบัติ นอกจากนี้คุณต้องมีเป้าหมายหนึ่งข้อหรือมากกว่านั้นในใจที่คุณกำหนดรหัสให้ตัวแทน (เป็นค่าตอบแทนที่สังเกตได้) ก่อนที่จะให้มันเป็นเมาส์เสมือนจริงและตั้งค่างานเพื่อวาดบางสิ่งบางอย่าง เกมคอมพิวเตอร์มีรูปแบบการให้รางวัลที่สร้างขึ้นเป็นระบบการให้คะแนนและให้ข้อเสนอแนะบ่อยๆดังนั้นตัวแทนสามารถรับความรู้เกี่ยวกับการตัดสินใจที่ดีและไม่ดีได้อย่างรวดเร็ว คุณจะต้องแทนที่องค์ประกอบการให้คะแนนด้วยสิ่งที่แสดงถึงเป้าหมายของคุณสำหรับระบบที่ใช้ CAD
CAD ไม่มีสิ่งที่เหมาะสมในตัวแม้ว่าเครื่องมือ CAD ที่มีการจำลองเช่นเครื่องยนต์ฟิสิกส์ต่าง ๆ หรือการวิเคราะห์องค์ประกอบ จำกัด อาจช่วยให้คุณทำคะแนนการออกแบบตามการวัดทางกายภาพจำลอง ความเป็นไปได้อื่น ๆ ได้แก่ การวิเคราะห์ความเค้นการใช้วัสดุที่ไม่สิ้นเปลืองสิ่งใดก็ตามที่ระบบ CAD / CAM สามารถจัดเตรียมสำหรับการออกแบบบางส่วนหรือทั้งหมด ส่วนที่ยากจะ จำกัด การออกแบบเพื่อเป้าหมายหรือวัตถุประสงค์และจัดให้ได้รับรางวัลหรือสร้างข้อ จำกัด ในสภาพแวดล้อม; การให้ตัวแทน RL สามารถควบคุมกระบวนการ CAD ได้อย่างไม่ จำกัด และให้รางวัลกับสายพันธุ์ที่ต่ำที่สุดอาจส่งผลให้เกิดสิ่งที่ไม่น่าสนใจอย่างเช่นก้อนเล็ก ๆ
มีวิธีการแนะนำสิ่งที่หลายคนเรียกการเรียนรู้เพิ่มเติมในเว็บแอพพลิเคชั่นมือถือและเวิร์คสเตชั่นจริง ๆ
องค์กรทหารทำอุตสาหกรรมภาพยนตร์ทำ บริษัท ที่ทำศูนย์ซอฟต์แวร์ทำมันและฉันทำเพื่อธุรกิจของ Fortune 500 และธุรกิจขนาดเล็กเหมือนกัน มีองค์ประกอบการเรียนรู้ที่ปรับเปลี่ยนได้ในส่วนประกอบของระบบทุกประเภทที่ฝังอยู่ในระบบที่มีขนาดใหญ่ตั้งแต่หุ่นยนต์จดจำใบหน้าของ FaceBook ไปจนถึง Google แปลภาษาไปจนถึง USPS ระบบจดจำรหัสไปรษณีย์ของ USPS ไปจนถึงระบบควบคุมการบินและจราจรอัตโนมัติ ซอฟต์แวร์ช่วยออกแบบคอมพิวเตอร์ (CAD) เป็นเป้าหมายที่แน่นอน
พื้นฐานสำหรับการเสริมแรง
พิจารณาชุดของเวกเตอร์ที่อธิบายเหตุการณ์ ลองจินตนาการว่าพวกมันถูกแบ่งออกเป็นสองชุดย่อย A และ B. โครงข่ายประสาทเทียม (เทียมหรือชีวภาพ) สามารถฝึกได้โดยใช้ A.
การฝึกอบรมสามารถควบคุมได้ซึ่งหมายถึงหนึ่งในมิติของเวกเตอร์ที่ถูกพิจารณาว่าเป็นฉลากดังนั้นตัวแปรที่ขึ้นอยู่กับการคาดการณ์อย่างเหมาะสม ส่วนข้อมูลอื่น ๆ จะกลายเป็นข้อเท็จจริงหรือสัญญาณอินพุตดังนั้นตัวแปรอิสระที่จะใช้ในการทำนาย การฝึกอบรมอาจไม่ได้รับการสนับสนุนโดยใช้การดึงคุณสมบัติ
ไม่ว่าจะด้วยวิธีใดก็ตามเมื่อได้รับ A ก่อนหน้า B และคาดว่าจะดำเนินการในการผลิต (ใช้งานจริง) ก่อนที่จะมาถึง B การมาถึงในภายหลังของ B นำเสนอทางเลือก
ตัวเลือก # 3 เป็นตัวเลือกที่ดีที่สุดในหลาย ๆ กรณีเนื่องจากมีข้อดีของตัวเลือก # 1 และ # 2 ในทางคณิตศาสตร์ # 3 ทำโดยอำนวยความสะดวกในการจองสิ่งที่เรียนรู้จากซีรี่ส์ A ในบางวิธี น้ำหนักสุทธิของระบบประสาทและการปรับพารามิเตอร์เมตาจะต้องทำให้ไวต่อการแก้ไขเนื่องจากประสบการณ์ใหม่บ่งบอกถึงความจำเป็นในการทำเช่นนั้น วิธีการไร้เดียงสาอย่างใดอย่างหนึ่งสามารถกำหนดทางคณิตศาสตร์ฟังก์ชันการยกกำลังแบบผกผันซึ่งจำลองการสลายตัวตามธรรมชาติในปรากฏการณ์มากมายในฟิสิกส์เคมีและสังคมศาสตร์
P = e -ntโดยที่Pคือความน่าจะเป็นที่ความเป็นจริงยังคงมีประสิทธิภาพnคืออัตราการสลายตัวของข้อมูลที่เรียนรู้ในอดีตและtคือตัวชี้วัดความก้าวหน้าไปข้างหน้าเช่นการประทับเวลาหมายเลขลำดับย่อย (แบทช์) หมายเลขลำดับข้อเท็จจริงหรือหมายเลขเหตุการณ์
ในกรณีของชุดย่อย A และ B เมื่อสูตรข้างต้นถูกนำไปใช้ในบางวิธีในกลไกการเรียนรู้การฝึกอบรมของ A จะวางอคติน้อยลงในผลลัพธ์สุดท้ายหลังจากการฝึกอบรมอย่างต่อเนื่องโดยใช้ B เพราะtสำหรับ A น้อยกว่า กว่าtสำหรับ B บอกกลไกที่ B น่าจะเกี่ยวข้องมากกว่า
หากเราแบ่ง A และ B แบบแบ่งย่อยซ้ำ ๆ กันสร้างซีรีส์ย่อยที่ละเอียดมากขึ้นแนวคิดที่กล่าวมาข้างต้นในการปล่อยให้ข้อมูลก่อนหน้าค่อยๆสลายตัวจะยังคงใช้ได้และมีค่า การให้น้ำหนักของเครือข่ายกับข้อมูลแรกที่ใช้ในการฝึกอบรมนั้นเทียบเท่ากับแนวคิดทางจิตวิทยาของความใจแคบ ระบบการเรียนรู้ที่พัฒนาไปสู่สมองของสัตว์เลี้ยงลูกด้วยนมดูเหมือนจะลืมหรือหมดความสนใจในสิ่งที่ผ่านมาเพื่อกระตุ้นให้เกิดการเปิดใจซึ่งไม่มีอะไรมากไปกว่าการปล่อยให้การเรียนรู้ใหม่บางครั้งก็จองไว้ก่อน
มีเหตุผลสองประการในการอนุญาตให้ข้อมูลตัวอย่างที่ใหม่กว่ามีน้ำหนักเกินกว่าข้อมูลตัวอย่างที่เก่ากว่า
ความจำเป็นที่จะต้องให้ความสำคัญของข้อมูลก่อนค่อยสลายไปเมื่อการเรียนรู้ดำเนินต่อไปเป็นหนึ่งในสองประเด็นหลักของการเสริมแรง ด้านที่สองคือชุดของแนวคิดการแก้ไขที่สร้างขึ้นจากแนวคิดการส่งสัญญาณตอบรับ
ข้อเสนอแนะและการเสริมแรง
สัญญาณข้อเสนอแนะในการเรียนรู้เสริมคือการเรียนรู้ของเครื่องเทียบเท่ากับแนวคิดทางจิตวิทยาที่คุ้นเคยเช่นความเจ็บปวดความสุขความพึงพอใจและสุขภาพ ระบบการเรียนรู้ได้รับข้อมูลเพื่อเป็นแนวทางในการฝึกอบรมเกินกว่าเป้าหมายของการแยกคุณสมบัติความเป็นอิสระของการจัดกลุ่มหรือการหาเมทริกซ์น้ำหนักสุทธิของระบบประสาทที่ใกล้เคียงกับความสัมพันธ์ระหว่างคุณลักษณะเหตุการณ์อินพุตและป้ายกำกับ
ข้อมูลที่ให้มาอาจเกิดจากภายในจากการจดจำรูปแบบที่ตั้งโปรแกรมไว้ล่วงหน้าหรือจากภายนอกจากการให้รางวัลและการลงโทษเช่นเดียวกับสัตว์เลี้ยงลูกด้วยนม เทคนิคและอัลกอริธึมที่พัฒนาขึ้นในการเรียนรู้ของเครื่องเสริมใช้สัญญาณเพิ่มเติมเหล่านี้บ่อยครั้ง (โดยใช้การแบ่งเวลาในการประมวลผล) หรือใช้หน่วยอิสระของหน่วยประมวลผลของสถาปัตยกรรมการประมวลผลแบบขนานอย่างต่อเนื่อง
งานนี้บุกเบิกโดย MIT โดย Norbert Wiener และเริ่มต้นในหนังสือของเขา Cybernetics (MIT Press 1948) คำไซเบอร์เนติกส์มาจากคำเก่าที่หมายถึงพวงมาลัยเรือ การเคลื่อนที่อัตโนมัติของหางเสือที่จะอยู่ในสนามอาจเป็นระบบตอบรับเชิงกลเป็นครั้งแรก เครื่องยนต์เครื่องตัดหญ้าของคุณอาจมี
แอปพลิเคชันที่ปรับเปลี่ยนได้และการเรียนรู้
การปรับตัวง่าย ๆ แบบเรียลไทม์สำหรับตำแหน่งหางเสือหรือปีกผีเสื้อตัดหญ้าไม่ได้เรียนรู้ การปรับตัวดังกล่าวมักจะเป็นรูปแบบหนึ่งของการควบคุม PID เชิงเส้น เทคโนโลยีการเรียนรู้ของเครื่องจักรที่กำลังขยายตัวในวันนี้รวบรวมการประเมินและการควบคุมระบบที่ไม่เชิงเส้นที่ซับซ้อนซึ่งนักคณิตศาสตร์เรียกว่าวุ่นวาย
โดยความวุ่นวายพวกเขาไม่ได้หมายความว่ากระบวนการที่อธิบายไว้ในความบ้าคลั่งหรือไม่เป็นระเบียบ Chaoticians ค้นพบเมื่อหลายสิบปีก่อนที่สมการที่ไม่ใช่เชิงเส้นง่าย ๆ สามารถนำไปสู่พฤติกรรมที่มีการจัดระเบียบสูง สิ่งที่พวกเขาหมายถึงคือปรากฏการณ์นั้นไวเกินไปต่อการเปลี่ยนแปลงเล็กน้อยเพื่อค้นหาอัลกอริทึมหรือสูตรคงที่ที่จะทำนายพวกเขา
ภาษาเป็นเช่นนั้น คำพูดเดียวกันที่กล่าวพร้อมกับการผันเสียงของเสียงที่แตกต่างกันหลายสิบสามารถหมายถึงสิ่งที่แตกต่างกันโหล ประโยคภาษาอังกฤษ "จริง ๆ " เป็นตัวอย่าง เป็นไปได้ว่าเทคนิคการเสริมกำลังจะช่วยให้เครื่องจักรในอนาคตสามารถแยกแยะกับความน่าจะเป็นที่สูงของความสำเร็จระหว่างความหมายต่าง ๆ ของข้อความนั้น
ทำไมต้องเกมก่อน
เกมมีชุดสถานการณ์ที่เป็นไปได้ง่ายและกำหนดได้ง่ายมาก จอห์นฟอนนอยมันน์หนึ่งในผู้มีส่วนร่วมสำคัญในการโต้เถียงในทฤษฎีเกมและพฤติกรรมทางเศรษฐกิจหนังสือที่เขาเขียนร่วมกับออสการ์มอร์เกนสเติร์นว่าการวางแผนและการตัดสินใจทั้งหมดเป็นเกมที่ซับซ้อน
พิจารณาเกมตัวอย่างการฝึกอบรมที่รวบรวมสมองที่จะสร้างระบบที่สามารถกำหนดความหมายของข้อความเช่นคนที่มีการศึกษาสามารถใช้คำแนะนำจากแหล่งที่มาสามแห่ง
เกินกว่าหมากรุกและ The Game of Go
ตามเส้นทางจากเกมไปสู่ระบบภาษาที่มีความเข้าใจที่ถูกต้องและความสามารถในการฟังที่ลึกซึ้งยิ่งขึ้นมีการประยุกต์ใช้การเรียนรู้เพิ่มเติมที่มีความสำคัญยิ่งต่อโลกและประสบการณ์ของมนุษย์
คนสี่คนและคนอื่น ๆ เหล่านี้มีความสำคัญมากกว่าการสะสมความมั่งคั่งผ่านการซื้อขายความเร็วสูงอัตโนมัติหรือการแข่งขันเกมที่ชนะการเรียนรู้ด้วยตนเองโดยมีศูนย์กลางอยู่ที่ความสนใจของเครื่องจักรสองเครื่องที่ส่งผลกระทบเพียงหนึ่งหรือสองรุ่นในครอบครัว
ความมั่งคั่งและมีชื่อเสียงเป็นสิ่งที่อยู่ในทฤษฎีเกมที่เรียกว่าเกมผลรวมศูนย์ พวกเขาสร้างความสูญเสียให้มากที่สุดเท่าที่มีการชนะถ้าคุณพิจารณาปรัชญา Golden Rule ที่สูงกว่าที่ผู้อื่นและครอบครัวมีความสำคัญเท่าเทียมกันกับเรา
เสริมการเรียนรู้สำหรับซอฟต์แวร์ CAD (การออกแบบโดยใช้คอมพิวเตอร์ช่วย)
การออกแบบโดยใช้คอมพิวเตอร์ช่วยเป็นจุดเริ่มต้นของการออกแบบคอมพิวเตอร์ (โดยไม่ต้องได้รับความช่วยเหลือจากมนุษย์) เช่นเดียวกับการป้องกันการล็อคโดยธรรมชาติจะนำไปสู่ยานยนต์อิสระอย่างเต็มที่
พิจารณาคำสั่ง "สร้างสบู่สำหรับอาบน้ำให้ฉันเพื่อเพิ่มโอกาสให้ครอบครัวของฉันสามารถคว้าสบู่ในครั้งแรกโดยไม่ลืมตาและลดความยากลำบากในการรักษาสบู่และพื้นผิวฝักบัวให้สะอาดนี่คือความสูงของ สมาชิกในครอบครัวของฉันและรูปภาพของพื้นที่อาบน้ำ " จากนั้นเครื่องพิมพ์ 3D จะปรากฏอุปกรณ์พร้อมที่จะแนบพร้อมกับคำแนะนำในการติดตั้ง
แน่นอนเช่นระบบซีดี (CAD ที่ไม่มีเครื่อง A) จะต้องได้รับการฝึกฝนด้านการดูแลทำความสะอาดพฤติกรรมมนุษย์โดยไม่ต้องมองเห็นวิธีการยึดสิ่งของเข้ากับกระเบื้องเครื่องมือและความสามารถในการบำรุงรักษาบ้านของผู้บริโภคทั่วไปความสามารถของเครื่องพิมพ์ 3 มิติ และอีกหลายสิ่ง
การพัฒนาระบบอัตโนมัติในการผลิตอาจเริ่มด้วยการเรียนรู้คำสั่งที่ง่ายขึ้นเช่น "แนบสองส่วนนี้โดยใช้ตัวยึดที่ผลิตขึ้นจำนวนมากและแนวปฏิบัติที่ดีที่สุด" โปรแกรม CAD จะเลือกฮาร์ดแวร์จากสกรูหมุดกาวและตัวเลือกอื่น ๆ อาจถามคำถามของนักออกแบบเกี่ยวกับอุณหภูมิในการทำงานและช่วงการสั่นสะเทือน จากนั้นจะเพิ่มตัวเลือกตำแหน่งและมุมในชุด CAD ชิ้นส่วนและแบบร่างประกอบและรายการวัสดุที่เหมาะสม