มีแอพพลิเคชั่นเสริมการเรียนรู้ที่นอกเหนือจากเกมหรือไม่?

มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่?

ตัวอย่างเดียวที่ฉันพบบนอินเทอร์เน็ตเป็นของตัวแทนเกม ฉันเข้าใจว่า VNC ควบคุมอินพุตให้กับเกมผ่านเครือข่ายเสริมแรง เป็นไปได้ไหมที่จะตั้งค่าด้วยซอฟต์แวร์ CAD?

reinforcement-learning applications

— มาร์ค Markrowave ชาร์ลตัน
แหล่งที่มา

ใช่เป็นไปได้ แต่คำถามจริงควรเป็นว่ามีประสิทธิภาพมากกว่าอัลกอริทึมอื่นหรือไม่ หากคุณมีเป้าหมายที่เฉพาะเจาะจงคุณสามารถคิดและจำลองมันเป็นเกม (แม้แต่ชีวิตก็เป็นเกม;)) ในความเป็นจริง AI ที่ประสบความสำเร็จมากมายได้รับประโยชน์จากเทคนิคมากกว่าหนึ่งเทคนิค ดูที่นี่: datascience.stackexchange.com/questions/11126/…

— TasosGlrs

ประเด็นเกี่ยวกับ AlphaGo คือเกมบางประเภท ( โดยเฉพาะข้อมูลที่ไม่น่าสนใจและไม่มีโอกาสและสมบูรณ์แบบ) เป็นข้อพิสูจน์ที่ยอดเยี่ยมสำหรับ AI เนื่องจากเกมเหล่านี้มีพารามิเตอร์ที่ง่ายมาก แต่มีความซับซ้อนคล้ายกับธรรมชาติ เกมจากมุมมองที่กำหนดเป็นสิ่งประดิษฐ์ที่มีประโยชน์มากที่สุดเพราะพวกเขาสอนการคิดเชิงนามธรรมและเชิงกลยุทธ์ เพื่อให้เข้าใจถึงความสำคัญของเกมให้ดูที่ผลกระทบของทฤษฎีเกมในวิทยาการคอมพิวเตอร์

— DukeZhou

นั่นอาจเป็นเพราะ NDA แอปการเรียนรู้ที่ดีที่สุดนั้นเป็นกรรมสิทธิ์เช่นเดียวกับซอฟต์แวร์หอโทรศัพท์ที่ดีที่สุดหรือการจดจำเสียงที่ดีที่สุดหรือศูนย์การค้าออนไลน์ที่ดีที่สุด โดยทั่วไปแล้ววิศวกรรม

— FauChristian

ขวา. หากทุกคนมีทฤษฎีเกมโลกก็จะกลายเป็นเกม

— FelicityC

คำตอบ:

หนึ่งในตัวอย่างที่ยอดเยี่ยมของการเรียนรู้การเสริมแรงคือเฮลิคอปเตอร์บินอัตโนมัติ ฉันมีโอกาสเรียนรู้บางสิ่งที่ทำโดย Andrew Ng และคนอื่น ๆ เมื่อเร็ว ๆ นี้ นี่คือบทความวิจัยกระดาษ มีเอกสารอื่นที่คล้ายคลึงกันด้วย คุณสามารถ google พวกเขาหากคุณต้องการเรียนรู้เพิ่มเติม

นอกจากนี้คุณยังสามารถดูได้ในการดำเนินการในในวิดีโอ YouTube นี้

นี่เป็นอีกแอปพลิเคชั่นทางการเงินที่แตกต่างอย่างสิ้นเชิงโดยสิ้นเชิง

คุณจะเห็นตัวอย่างเกมจำนวนมากในวรรณคดีการเรียนรู้การเสริมแรงเนื่องจากสภาพแวดล้อมของเกมสามารถเขียนรหัสได้อย่างมีประสิทธิภาพและทำงานอย่างรวดเร็วบนคอมพิวเตอร์เครื่องเดียวที่สามารถบรรจุสภาพแวดล้อมและตัวแทนได้ สำหรับเกมคลาสสิกเช่นแบ็คแกมมอนหมากฮอสหมากรุกไปแล้วมีผู้เชี่ยวชาญของมนุษย์ที่เราสามารถเปรียบเทียบผลลัพธ์ได้ เกมบางเกมหรือเกมที่มีสภาพแวดล้อมคล้ายเกมง่าย ๆ มักใช้เพื่อเปรียบเทียบวิธีการที่แตกต่างกันเช่นตัวเลขหลักที่เขียนด้วยลายมือของ MNIST ใช้สำหรับเปรียบเทียบวิธีการเรียนรู้แบบมีผู้สอน

มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่?

ใช่. คุณสามารถใช้แนวทางการเรียนรู้เสริมได้ทุกเมื่อคุณสามารถกำหนดกรอบปัญหาในฐานะตัวแทนที่ทำหน้าที่ภายในสภาพแวดล้อมที่สามารถแจ้งให้ทราบถึงสถานะของรัฐและมูลค่าของรางวัลที่มีอิทธิพลต่อเป้าหมาย อย่างเป็นทางการมากขึ้นทฤษฎีการเรียนรู้การเสริมแรงนั้นยึดตามวิธีแก้ปัญหาของกระบวนการตัดสินใจของมาร์คอฟดังนั้นหากคุณสามารถอธิบายคำอธิบายปัญหาของคุณกับ MDP ได้คุณสามารถใช้เทคนิคต่าง ๆ ที่ใช้ใน RL เช่น Q-learning, SARSA, REINFORCE ความพอดีกับทฤษฎีนี้ไม่จำเป็นต้องสมบูรณ์แบบสำหรับระบบผลลัพธ์ที่จะทำงานตัวอย่างเช่นคุณสามารถรักษาสถานะที่ไม่รู้จักหรือสังเกตอย่างไม่ถูกต้องว่าเป็นการสุ่มอย่างมีประสิทธิภาพต่อตัวแทนและพิจารณาสภาพแวดล้อมแบบสุ่มนี้

นี่คือตัวอย่างของการใช้งานที่เป็นไปได้สำหรับการเสริมแรงการเรียนรู้นอกเกมสันทนาการ:

ตรรกะควบคุมสำหรับหุ่นยนต์เครื่องยนต์เช่นเรียนรู้ที่จะพลิกแพนเค้กและตัวอย่างอื่น ๆ ที่นี่การวัดสภาพแวดล้อมทำโดยเซ็นเซอร์ทางกายภาพบนหุ่นยนต์ รางวัลจะมอบให้สำหรับการทำเป้าหมายให้สำเร็จ แต่อาจจะปรับเพื่อความนุ่มนวลการใช้พลังงานเชิงเศรษฐศาสตร์เป็นต้นตัวแทนเลือกการกระทำระดับต่ำเช่นแรงบิดมอเตอร์หรือตำแหน่งรีเลย์ ในทางทฤษฎีอาจมีเอเจนต์ซ้อนกันที่คนระดับสูงเลือกเป้าหมายสำหรับคนระดับล่าง - เช่นหุ่นยนต์อาจตัดสินใจในระดับสูงระหว่างการทำงานหนึ่งในสามอย่างที่ต้องย้ายไปยังสถานที่ต่างกันและในระดับที่ต่ำกว่าอาจเป็น ตัดสินใจเกี่ยวกับวิธีการควบคุมมอเตอร์เพื่อย้ายหุ่นยนต์ไปยังเป้าหมายที่เลือกไว้
รถยนต์ขับเคลื่อนด้วยตนเอง แม้ว่าจะมีการโฟกัสจำนวนมากในการตีความเซ็นเซอร์ - การมองเห็นเครื่องหมายถนนคนเดินเท้า ฯลฯ ระบบควบคุมจำเป็นต้องมีเพื่อเลือกคันเร่งเบรกและพวงมาลัย
การซื้อขายทางการเงินอัตโนมัติ อาจเป็นเกมสำหรับบางคนมีผลที่เกิดขึ้นจริงในโลกที่ชัดเจน สัญญาณรางวัลนั้นง่ายพอและสามารถปรับ RL เพื่อให้ได้กำไรในระยะสั้นหรือระยะยาว

เป็นไปได้ไหมที่จะตั้งค่านี้ด้วยซอฟต์แวร์ CAD?

ในทางทฤษฎีแล้วใช่ แต่ฉันไม่รู้ว่าสิ่งใดที่สามารถทำได้ในทางปฏิบัติ นอกจากนี้คุณต้องมีเป้าหมายหนึ่งข้อหรือมากกว่านั้นในใจที่คุณกำหนดรหัสให้ตัวแทน (เป็นค่าตอบแทนที่สังเกตได้) ก่อนที่จะให้มันเป็นเมาส์เสมือนจริงและตั้งค่างานเพื่อวาดบางสิ่งบางอย่าง เกมคอมพิวเตอร์มีรูปแบบการให้รางวัลที่สร้างขึ้นเป็นระบบการให้คะแนนและให้ข้อเสนอแนะบ่อยๆดังนั้นตัวแทนสามารถรับความรู้เกี่ยวกับการตัดสินใจที่ดีและไม่ดีได้อย่างรวดเร็ว คุณจะต้องแทนที่องค์ประกอบการให้คะแนนด้วยสิ่งที่แสดงถึงเป้าหมายของคุณสำหรับระบบที่ใช้ CAD

CAD ไม่มีสิ่งที่เหมาะสมในตัวแม้ว่าเครื่องมือ CAD ที่มีการจำลองเช่นเครื่องยนต์ฟิสิกส์ต่าง ๆ หรือการวิเคราะห์องค์ประกอบ จำกัด อาจช่วยให้คุณทำคะแนนการออกแบบตามการวัดทางกายภาพจำลอง ความเป็นไปได้อื่น ๆ ได้แก่ การวิเคราะห์ความเค้นการใช้วัสดุที่ไม่สิ้นเปลืองสิ่งใดก็ตามที่ระบบ CAD / CAM สามารถจัดเตรียมสำหรับการออกแบบบางส่วนหรือทั้งหมด ส่วนที่ยากจะ จำกัด การออกแบบเพื่อเป้าหมายหรือวัตถุประสงค์และจัดให้ได้รับรางวัลหรือสร้างข้อ จำกัด ในสภาพแวดล้อม; การให้ตัวแทน RL สามารถควบคุมกระบวนการ CAD ได้อย่างไม่ จำกัด และให้รางวัลกับสายพันธุ์ที่ต่ำที่สุดอาจส่งผลให้เกิดสิ่งที่ไม่น่าสนใจอย่างเช่นก้อนเล็ก ๆ

— Neil Slater
แหล่งที่มา

ความอุดมสมบูรณ์ของสิ่งที่เหมาะสม: การวัดขนาดอัตโนมัติเพื่อความชัดเจนของภาพสูงสุดค้นหารบกวนสำหรับชิ้นส่วนที่เคลื่อนไหวภายใต้ความเครียด (ไม่ FEA), การเพิ่มประสิทธิภาพผลผลิต CAM, การแสดงผลเร่งใช้ข้อมูลตัวอย่าง Z-ลึก ฯลฯ ฯลฯ

— FauChristian

@FauChristian: ฉันไม่แน่ใจว่าทุกคนสามารถได้รับการให้คะแนนสัญญาณเหมือนคะแนนเกม การเพิ่มประสิทธิภาพการออกแบบสำหรับการลดความเครียดเช่นหมายถึงการออกแบบของคุณมีจุดประสงค์ - คุณต้องเพิ่มข้อ จำกัด / กฎบางอย่างเพื่อติดตามจุดประสงค์นั้นและอาจยากกว่านี้เว้นแต่คุณจะมีการวิเคราะห์ตามหลักสรีรศาสตร์ อย่างไรก็ตามความคิดเห็นเพิ่มบางสิ่งที่ฉันสามารถพูดถึงและจะเพิ่มคำตอบ

— Neil Slater

ใช่. จริง ฉันจะพยายาม. โปรดแก้ตัวสตริงความคิดเห็นที่ฉันจะต้องทำ ในแต่ละกรณีข้างต้นเป้าหมายของฉันคือการรวบรวมความกังวลของนักออกแบบเครื่องจักรกลเป็นสัญญาณสุขภาพเดียวที่สามารถเป็นแนวทางในการทำซ้ำโดยความจริงในใจว่าอาจมีหลายอวัยวะของ NN แต่ละแห่งซึ่งอาจได้รับการรวมกลุ่มที่แตกต่างกัน แต่เพื่อความเรียบง่ายฉันจะรวมแต่ละกรณีกับสเกลาร์ การมีองค์ประกอบสุ่มต้องเป็นส่วนใหญ่เนื่องจากกรณีส่วนใหญ่ใน CAD มีจุดวิกฤติหลายจุดในพื้นผิวของค่ารวม

— FauChristian

การวัดขนาดอัตโนมัติ - w = sqrt (Σนาที (s_clear, s_nice)) + k n_jumps, ... โดยที่ ... w คือการรวมคุณภาพของสถานะของการกำหนดขนาดของการวาดภาพซึ่งสามารถรับสัญญาณตอบกลับปกติได้, s_clear คือระยะห่างระหว่างเส้นขนาดและเส้นที่ใกล้ที่สุดยกเว้นเส้นกระโดด s_nice เป็น metaparameter แสดงระยะห่างที่ดีของระยะห่างระหว่างเส้นสำหรับประเภทของรูปวาดที่ถูกกำหนดมิติ k เป็นค่าคงที่และ n_jumps คือจำนวนเส้นกระโดด ( เส้นที่จะข้าม แต่หนึ่งในสองมีช่องว่างเพื่อระบุว่ามันกระโดดหลังบรรทัดอื่น)

— FauChristian

Interferance Searches - w = n, ... โดยที่ ... w คือการรวมคุณภาพของการค้นหาการรบกวนและ n คือจำนวนของการรบกวนที่พบหลังจากป้อนการวนซ้ำที่เดาได้ว่าเป็นการจำลองแบบไดนามิกของการเดา เกมนี้เป็นเหมือนเกมที่มีการรบกวนที่ถูกต้องมากกว่านี้จะเดาได้ว่ามีคะแนนสูงกว่า

— FauChristian

มีวิธีการแนะนำสิ่งที่หลายคนเรียกการเรียนรู้เพิ่มเติมในเว็บแอพพลิเคชั่นมือถือและเวิร์คสเตชั่นจริง ๆ

องค์กรทหารทำอุตสาหกรรมภาพยนตร์ทำ บริษัท ที่ทำศูนย์ซอฟต์แวร์ทำมันและฉันทำเพื่อธุรกิจของ Fortune 500 และธุรกิจขนาดเล็กเหมือนกัน มีองค์ประกอบการเรียนรู้ที่ปรับเปลี่ยนได้ในส่วนประกอบของระบบทุกประเภทที่ฝังอยู่ในระบบที่มีขนาดใหญ่ตั้งแต่หุ่นยนต์จดจำใบหน้าของ FaceBook ไปจนถึง Google แปลภาษาไปจนถึง USPS ระบบจดจำรหัสไปรษณีย์ของ USPS ไปจนถึงระบบควบคุมการบินและจราจรอัตโนมัติ ซอฟต์แวร์ช่วยออกแบบคอมพิวเตอร์ (CAD) เป็นเป้าหมายที่แน่นอน

พื้นฐานสำหรับการเสริมแรง

พิจารณาชุดของเวกเตอร์ที่อธิบายเหตุการณ์ ลองจินตนาการว่าพวกมันถูกแบ่งออกเป็นสองชุดย่อย A และ B. โครงข่ายประสาทเทียม (เทียมหรือชีวภาพ) สามารถฝึกได้โดยใช้ A.

การฝึกอบรมสามารถควบคุมได้ซึ่งหมายถึงหนึ่งในมิติของเวกเตอร์ที่ถูกพิจารณาว่าเป็นฉลากดังนั้นตัวแปรที่ขึ้นอยู่กับการคาดการณ์อย่างเหมาะสม ส่วนข้อมูลอื่น ๆ จะกลายเป็นข้อเท็จจริงหรือสัญญาณอินพุตดังนั้นตัวแปรอิสระที่จะใช้ในการทำนาย การฝึกอบรมอาจไม่ได้รับการสนับสนุนโดยใช้การดึงคุณสมบัติ

ไม่ว่าจะด้วยวิธีใดก็ตามเมื่อได้รับ A ก่อนหน้า B และคาดว่าจะดำเนินการในการผลิต (ใช้งานจริง) ก่อนที่จะมาถึง B การมาถึงในภายหลังของ B นำเสนอทางเลือก

ลบน้ำหนักและการปรับพารามิเตอร์เมตาใด ๆ ที่ทำขึ้นระหว่างการฝึกอบรมด้วย A และเรียกใช้การฝึกอบรมใหม่ด้วยชุด A และ B ที่ต่อกัน
ดำเนินการฝึกอบรมกับ B ต่อไปในกรณีที่เครือข่ายจะมีอคติกับ A และผลลัพธ์จะแตกต่างจากผลลัพธ์ที่ได้รับจากการฝึกอบรมกับ B แล้ว A
ค้นหาวิธีที่จะ จำกัด อคติของการฝึกครั้งแรกด้วย A ในขณะที่หลีกเลี่ยงการใช้ทรัพยากรที่จำเป็นสำหรับตัวเลือก # 1 ด้านบน

ตัวเลือก # 3 เป็นตัวเลือกที่ดีที่สุดในหลาย ๆ กรณีเนื่องจากมีข้อดีของตัวเลือก # 1 และ # 2 ในทางคณิตศาสตร์ # 3 ทำโดยอำนวยความสะดวกในการจองสิ่งที่เรียนรู้จากซีรี่ส์ A ในบางวิธี น้ำหนักสุทธิของระบบประสาทและการปรับพารามิเตอร์เมตาจะต้องทำให้ไวต่อการแก้ไขเนื่องจากประสบการณ์ใหม่บ่งบอกถึงความจำเป็นในการทำเช่นนั้น วิธีการไร้เดียงสาอย่างใดอย่างหนึ่งสามารถกำหนดทางคณิตศาสตร์ฟังก์ชันการยกกำลังแบบผกผันซึ่งจำลองการสลายตัวตามธรรมชาติในปรากฏการณ์มากมายในฟิสิกส์เคมีและสังคมศาสตร์

P = e ^-ntโดยที่Pคือความน่าจะเป็นที่ความเป็นจริงยังคงมีประสิทธิภาพnคืออัตราการสลายตัวของข้อมูลที่เรียนรู้ในอดีตและtคือตัวชี้วัดความก้าวหน้าไปข้างหน้าเช่นการประทับเวลาหมายเลขลำดับย่อย (แบทช์) หมายเลขลำดับข้อเท็จจริงหรือหมายเลขเหตุการณ์

ในกรณีของชุดย่อย A และ B เมื่อสูตรข้างต้นถูกนำไปใช้ในบางวิธีในกลไกการเรียนรู้การฝึกอบรมของ A จะวางอคติน้อยลงในผลลัพธ์สุดท้ายหลังจากการฝึกอบรมอย่างต่อเนื่องโดยใช้ B เพราะtสำหรับ A น้อยกว่า กว่าtสำหรับ B บอกกลไกที่ B น่าจะเกี่ยวข้องมากกว่า

หากเราแบ่ง A และ B แบบแบ่งย่อยซ้ำ ๆ กันสร้างซีรีส์ย่อยที่ละเอียดมากขึ้นแนวคิดที่กล่าวมาข้างต้นในการปล่อยให้ข้อมูลก่อนหน้าค่อยๆสลายตัวจะยังคงใช้ได้และมีค่า การให้น้ำหนักของเครือข่ายกับข้อมูลแรกที่ใช้ในการฝึกอบรมนั้นเทียบเท่ากับแนวคิดทางจิตวิทยาของความใจแคบ ระบบการเรียนรู้ที่พัฒนาไปสู่สมองของสัตว์เลี้ยงลูกด้วยนมดูเหมือนจะลืมหรือหมดความสนใจในสิ่งที่ผ่านมาเพื่อกระตุ้นให้เกิดการเปิดใจซึ่งไม่มีอะไรมากไปกว่าการปล่อยให้การเรียนรู้ใหม่บางครั้งก็จองไว้ก่อน

มีเหตุผลสองประการในการอนุญาตให้ข้อมูลตัวอย่างที่ใหม่กว่ามีน้ำหนักเกินกว่าข้อมูลตัวอย่างที่เก่ากว่า

การลบความลำเอียงข้างต้นของการเรียนรู้ก่อนหน้านี้เพื่อให้มีน้ำหนักมากขึ้นเมื่อเร็ว ๆ นี้ในการเรียนรู้เพิ่มเติมนั้นเหมาะสมถ้าเหตุการณ์ทั้งหมดที่มีประสบการณ์ (ผ่านการฝึกอบรม) แสดงข้อเท็จจริงที่สมเหตุสมผลเกี่ยวกับโลกภายนอกที่ระบบพยายามเรียนรู้
โลกภายนอกอาจมีการเปลี่ยนแปลงและการเรียนรู้แบบเก่าอาจไม่เกี่ยวข้องหรือทำให้เข้าใจผิด

ความจำเป็นที่จะต้องให้ความสำคัญของข้อมูลก่อนค่อยสลายไปเมื่อการเรียนรู้ดำเนินต่อไปเป็นหนึ่งในสองประเด็นหลักของการเสริมแรง ด้านที่สองคือชุดของแนวคิดการแก้ไขที่สร้างขึ้นจากแนวคิดการส่งสัญญาณตอบรับ

ข้อเสนอแนะและการเสริมแรง

สัญญาณข้อเสนอแนะในการเรียนรู้เสริมคือการเรียนรู้ของเครื่องเทียบเท่ากับแนวคิดทางจิตวิทยาที่คุ้นเคยเช่นความเจ็บปวดความสุขความพึงพอใจและสุขภาพ ระบบการเรียนรู้ได้รับข้อมูลเพื่อเป็นแนวทางในการฝึกอบรมเกินกว่าเป้าหมายของการแยกคุณสมบัติความเป็นอิสระของการจัดกลุ่มหรือการหาเมทริกซ์น้ำหนักสุทธิของระบบประสาทที่ใกล้เคียงกับความสัมพันธ์ระหว่างคุณลักษณะเหตุการณ์อินพุตและป้ายกำกับ

ข้อมูลที่ให้มาอาจเกิดจากภายในจากการจดจำรูปแบบที่ตั้งโปรแกรมไว้ล่วงหน้าหรือจากภายนอกจากการให้รางวัลและการลงโทษเช่นเดียวกับสัตว์เลี้ยงลูกด้วยนม เทคนิคและอัลกอริธึมที่พัฒนาขึ้นในการเรียนรู้ของเครื่องเสริมใช้สัญญาณเพิ่มเติมเหล่านี้บ่อยครั้ง (โดยใช้การแบ่งเวลาในการประมวลผล) หรือใช้หน่วยอิสระของหน่วยประมวลผลของสถาปัตยกรรมการประมวลผลแบบขนานอย่างต่อเนื่อง

งานนี้บุกเบิกโดย MIT โดย Norbert Wiener และเริ่มต้นในหนังสือของเขา Cybernetics (MIT Press 1948) คำไซเบอร์เนติกส์มาจากคำเก่าที่หมายถึงพวงมาลัยเรือ การเคลื่อนที่อัตโนมัติของหางเสือที่จะอยู่ในสนามอาจเป็นระบบตอบรับเชิงกลเป็นครั้งแรก เครื่องยนต์เครื่องตัดหญ้าของคุณอาจมี

แอปพลิเคชันที่ปรับเปลี่ยนได้และการเรียนรู้

การปรับตัวง่าย ๆ แบบเรียลไทม์สำหรับตำแหน่งหางเสือหรือปีกผีเสื้อตัดหญ้าไม่ได้เรียนรู้ การปรับตัวดังกล่าวมักจะเป็นรูปแบบหนึ่งของการควบคุม PID เชิงเส้น เทคโนโลยีการเรียนรู้ของเครื่องจักรที่กำลังขยายตัวในวันนี้รวบรวมการประเมินและการควบคุมระบบที่ไม่เชิงเส้นที่ซับซ้อนซึ่งนักคณิตศาสตร์เรียกว่าวุ่นวาย

โดยความวุ่นวายพวกเขาไม่ได้หมายความว่ากระบวนการที่อธิบายไว้ในความบ้าคลั่งหรือไม่เป็นระเบียบ Chaoticians ค้นพบเมื่อหลายสิบปีก่อนที่สมการที่ไม่ใช่เชิงเส้นง่าย ๆ สามารถนำไปสู่พฤติกรรมที่มีการจัดระเบียบสูง สิ่งที่พวกเขาหมายถึงคือปรากฏการณ์นั้นไวเกินไปต่อการเปลี่ยนแปลงเล็กน้อยเพื่อค้นหาอัลกอริทึมหรือสูตรคงที่ที่จะทำนายพวกเขา

ภาษาเป็นเช่นนั้น คำพูดเดียวกันที่กล่าวพร้อมกับการผันเสียงของเสียงที่แตกต่างกันหลายสิบสามารถหมายถึงสิ่งที่แตกต่างกันโหล ประโยคภาษาอังกฤษ "จริง ๆ " เป็นตัวอย่าง เป็นไปได้ว่าเทคนิคการเสริมกำลังจะช่วยให้เครื่องจักรในอนาคตสามารถแยกแยะกับความน่าจะเป็นที่สูงของความสำเร็จระหว่างความหมายต่าง ๆ ของข้อความนั้น

ทำไมต้องเกมก่อน

เกมมีชุดสถานการณ์ที่เป็นไปได้ง่ายและกำหนดได้ง่ายมาก จอห์นฟอนนอยมันน์หนึ่งในผู้มีส่วนร่วมสำคัญในการโต้เถียงในทฤษฎีเกมและพฤติกรรมทางเศรษฐกิจหนังสือที่เขาเขียนร่วมกับออสการ์มอร์เกนสเติร์นว่าการวางแผนและการตัดสินใจทั้งหมดเป็นเกมที่ซับซ้อน

พิจารณาเกมตัวอย่างการฝึกอบรมที่รวบรวมสมองที่จะสร้างระบบที่สามารถกำหนดความหมายของข้อความเช่นคนที่มีการศึกษาสามารถใช้คำแนะนำจากแหล่งที่มาสามแห่ง

บริบทภายในการสนทนาหรือสถานการณ์ทางสังคม
เสียงที่เปล่งออกของลำโพง
การแสดงออกทางสีหน้าและภาษากายของผู้พูด

เกินกว่าหมากรุกและ The Game of Go

ตามเส้นทางจากเกมไปสู่ระบบภาษาที่มีความเข้าใจที่ถูกต้องและความสามารถในการฟังที่ลึกซึ้งยิ่งขึ้นมีการประยุกต์ใช้การเรียนรู้เพิ่มเติมที่มีความสำคัญยิ่งต่อโลกและประสบการณ์ของมนุษย์

ระบบที่เรียนรู้วิธีปิดหรือลดแสงเครื่องใช้ระบบดิจิตอล HVAC และอุปกรณ์ที่ใช้พลังงานอื่น ๆ - พลังงานอาจเป็นสินค้าที่มีอิทธิพลทางการเมืองมากที่สุดในประวัติศาสตร์ของมนุษย์เนื่องจากการสูญเสียทรัพยากรเชื้อเพลิงฟอสซิลเมื่อเวลาผ่านไป)
การพัฒนายานยนต์แบบอิสระ - แนวโน้มอันตรายของการทำงานของเครื่องจักรกลหนักเช่นเครื่องบิน RVs, รถบรรทุก, รถบัสและรถพ่วงเทรลเลอร์โดยผู้คนในสภาวะที่ไม่รู้จักบนถนนเปิดจะถูกมองว่าเป็นคนบ้าในอนาคต
การจัดอันดับความน่าเชื่อถือของข้อมูล - ข้อมูลมีอยู่ทั่วไปและมากกว่า 99% มีข้อผิดพลาดไม่ว่าจะเป็นบางส่วนหรือทั้งหมด มีการพิสูจน์ตัวจริงน้อยมากจากการวิจัยจริงทั้งการออกแบบที่ถูกต้องและตีความการศึกษาแบบสุ่มสองครั้งที่ตาบอดหรือการทดสอบและการวิเคราะห์ในห้องปฏิบัติการที่ยืนยันได้
แอปพลิเคชันด้านการดูแลสุขภาพที่วินิจฉัยได้ดียิ่งขึ้นปรับการเยียวยาสำหรับแต่ละบุคคลและให้ความช่วยเหลือด้วยการดูแลอย่างต่อเนื่องเพื่อป้องกันการเกิดซ้ำ

คนสี่คนและคนอื่น ๆ เหล่านี้มีความสำคัญมากกว่าการสะสมความมั่งคั่งผ่านการซื้อขายความเร็วสูงอัตโนมัติหรือการแข่งขันเกมที่ชนะการเรียนรู้ด้วยตนเองโดยมีศูนย์กลางอยู่ที่ความสนใจของเครื่องจักรสองเครื่องที่ส่งผลกระทบเพียงหนึ่งหรือสองรุ่นในครอบครัว

ความมั่งคั่งและมีชื่อเสียงเป็นสิ่งที่อยู่ในทฤษฎีเกมที่เรียกว่าเกมผลรวมศูนย์ พวกเขาสร้างความสูญเสียให้มากที่สุดเท่าที่มีการชนะถ้าคุณพิจารณาปรัชญา Golden Rule ที่สูงกว่าที่ผู้อื่นและครอบครัวมีความสำคัญเท่าเทียมกันกับเรา

เสริมการเรียนรู้สำหรับซอฟต์แวร์ CAD (การออกแบบโดยใช้คอมพิวเตอร์ช่วย)

การออกแบบโดยใช้คอมพิวเตอร์ช่วยเป็นจุดเริ่มต้นของการออกแบบคอมพิวเตอร์ (โดยไม่ต้องได้รับความช่วยเหลือจากมนุษย์) เช่นเดียวกับการป้องกันการล็อคโดยธรรมชาติจะนำไปสู่ยานยนต์อิสระอย่างเต็มที่

พิจารณาคำสั่ง "สร้างสบู่สำหรับอาบน้ำให้ฉันเพื่อเพิ่มโอกาสให้ครอบครัวของฉันสามารถคว้าสบู่ในครั้งแรกโดยไม่ลืมตาและลดความยากลำบากในการรักษาสบู่และพื้นผิวฝักบัวให้สะอาดนี่คือความสูงของ สมาชิกในครอบครัวของฉันและรูปภาพของพื้นที่อาบน้ำ " จากนั้นเครื่องพิมพ์ 3D จะปรากฏอุปกรณ์พร้อมที่จะแนบพร้อมกับคำแนะนำในการติดตั้ง

แน่นอนเช่นระบบซีดี (CAD ที่ไม่มีเครื่อง A) จะต้องได้รับการฝึกฝนด้านการดูแลทำความสะอาดพฤติกรรมมนุษย์โดยไม่ต้องมองเห็นวิธีการยึดสิ่งของเข้ากับกระเบื้องเครื่องมือและความสามารถในการบำรุงรักษาบ้านของผู้บริโภคทั่วไปความสามารถของเครื่องพิมพ์ 3 มิติ และอีกหลายสิ่ง

การพัฒนาระบบอัตโนมัติในการผลิตอาจเริ่มด้วยการเรียนรู้คำสั่งที่ง่ายขึ้นเช่น "แนบสองส่วนนี้โดยใช้ตัวยึดที่ผลิตขึ้นจำนวนมากและแนวปฏิบัติที่ดีที่สุด" โปรแกรม CAD จะเลือกฮาร์ดแวร์จากสกรูหมุดกาวและตัวเลือกอื่น ๆ อาจถามคำถามของนักออกแบบเกี่ยวกับอุณหภูมิในการทำงานและช่วงการสั่นสะเทือน จากนั้นจะเพิ่มตัวเลือกตำแหน่งและมุมในชุด CAD ชิ้นส่วนและแบบร่างประกอบและรายการวัสดุที่เหมาะสม

— ดักลาสดาเซโก
แหล่งที่มา

ฉันจะไม่ปกติให้ความคิดเห็นที่สำคัญในคำตอบนี้เขียนได้ดี แต่ในเมื่อคุณขอวิจารณ์: ผมคิดว่าส่วนพื้นฐานสำหรับการเสริมความแข็งแรง , ความคิดเห็นและการเสริมสร้างและการประยุกต์ใช้งานการปรับตัวและการเรียนรู้ในขณะที่ที่น่าสนใจอาจจะลดลงอย่างมากในขณะที่ คำถามของ OP แสดงให้เห็นถึงความรู้เกี่ยวกับ RL แล้วและคุณใช้เวลาส่วนใหญ่ในการตั้งค่าการสนทนาที่เกี่ยวข้องก่อนที่จะตอบคำถามเดิม

— Neil Slater

ว่า OP ถามคำถามบ่งชี้หลุมทั้งสถานะปัจจุบันของการวิจัยบ่งบอกถึงคนใหม่ในสนามและอาจจำเป็นต้องใช้สีรองพื้นในส่วนก่อนหน้า ส่วนสุดท้ายตอบคำถามได้โดยตรง

— FauChristian