"อัลกอริทึมการเรียนรู้การเสริมแรงแบบใหม่" ใน AlphaGo Zero คืออะไร?


10

ด้วยเหตุผลบางอย่าง AlphaGo Zero ไม่ได้รับการเผยแพร่มากเท่ากับ AlphaGo ดั้งเดิมแม้ว่าจะได้ผลลัพธ์ที่น่าเหลือเชื่อ เริ่มต้นจากศูนย์แล้วมันก็เอาชนะ AlphaGo Master ได้และผ่านเกณฑ์มาตรฐานอื่น ๆ อีกมากมาย ยิ่งไปกว่านั้นมันทำอย่างนี้ใน 40 วัน ชื่อของ Google เป็น"เนื้อหาที่ผู้เล่นไปที่ดีที่สุดในโลก"

DeepMind อ้างว่านี่เป็น "รูปแบบใหม่ของการเรียนรู้การเสริมแรง" - นี่เป็นเทคนิคที่แปลกใหม่จริงหรือ หรือมีเวลาอื่นเมื่อใช้เทคนิคนี้ - และถ้าเป็นเช่นนั้นผลลัพธ์ของพวกเขาคืออะไร ฉันคิดว่าข้อกำหนดที่ฉันพูดถึงคือ 1) ไม่มีการแทรกแซงของมนุษย์และ 2) ไม่มีการเล่นเชิงประวัติศาสตร์ แต่สิ่งเหล่านี้มีความยืดหยุ่น

สิ่งนี้ดูเหมือนจะเป็นคำถามที่คล้ายกัน แต่คำตอบทั้งหมดดูเหมือนจะเริ่มจากสมมติฐานที่ว่า AlphaGo Zero เป็นคำถามแรก


การเรียนรู้การเสริมกำลังไม่ใช่เรื่องใหม่ เทคนิคใดที่ Google อ้างว่าเป็นเทคนิคแรก
HelloWorld

มีการอ้างอิงเกี่ยวกับมันในเว็บไซต์ที่เชื่อมโยงและในบทความที่พวกเขาใช้วลี "เครือข่ายประสาทใน AlphaGo Zero ได้รับการฝึกฝนจากเกมการเล่นด้วยตนเองโดยอัลกอริทึมการเรียนรู้การเสริมแรงแบบใหม่"
Dubukay

1
การเล่นด้วยตนเองไม่ใช่เรื่องใหม่ มันมีอยู่ก่อนที่ Google มีรายละเอียดในอัลกอริทึมที่ทำให้พวกเขา "ใหม่" บางทีคนอื่นสามารถตอบได้
HelloWorld

2
ฉันเข้าใจว่า - ฉันเดาว่าฉันพยายามเข้าใจว่าอะไรที่ทำให้วิธีการของพวกเขาดีขึ้นอย่างไม่น่าเชื่อและนั่นคือสิ่งที่เราควรคาดหวังที่จะเห็นในพื้นที่อื่น มันเป็นปรัชญาใหม่หรือรหัสที่ดีจริงๆเหรอ?
Dubukay

1
ฉันพบสำเนาของเอกสารที่นี่: nature.com/articles/… (รวมถึงโทเค็นการแชร์ซึ่งมาจากบล็อกที่เชื่อมโยงดังนั้นจึงเป็น AFAICS สาธารณะที่ถูกต้อง) แม้ว่าหลังจากอ่านคำอธิบายแล้ว แต่ก็ยากที่จะเลือกความแปลกใหม่ที่เกิดขึ้นจริง - ความคิดของแต่ละคนดูเหมือนจะเป็นเทคนิคการเล่น RL / เกมที่มีอยู่ก่อนมันอาจเป็นการผสมผสานเฉพาะของพวกเขาที่เป็นนวนิยาย
Neil Slater

คำตอบ:


6

AlphaGo ศูนย์บทความจากธรรมชาติ "Mastering เกมของไปโดยไม่มีความรู้ของมนุษย์" เรียกร้องสี่แตกต่างที่สำคัญจากรุ่นก่อนหน้านี้:

  1. การเรียนรู้ด้วยตนเองเท่านั้น (ไม่ได้รับการฝึกฝนในเกมของมนุษย์)
  2. ใช้เฉพาะบอร์ดและหินเป็นอินพุต (ไม่มีคุณสมบัติที่เขียนด้วยมือ)
  3. ใช้เครือข่ายประสาทเดียวสำหรับนโยบายและค่านิยม
  4. อัลกอริทึมการค้นหาแบบต้นไม้ใหม่ที่ใช้เครือข่ายนโยบาย / ค่ารวมนี้เพื่อเป็นแนวทางในการค้นหาความเคลื่อนไหวที่ดี

คะแนน (1) และ (2) ไม่ใช่เรื่องใหม่ในการเรียนรู้การเสริมแรง แต่ปรับปรุงซอฟต์แวร์AlphaGoก่อนหน้าตามที่ระบุไว้ในข้อคิดเห็นของคำถามของคุณ นั่นหมายความว่าพวกเขากำลังใช้การเรียนรู้การเสริมแรงอย่างแท้จริงโดยเริ่มจากน้ำหนักเริ่มต้นแบบสุ่ม สิ่งนี้เปิดใช้งานโดยอัลกอริทึมการเรียนรู้ที่ดีกว่าและเร็วกว่า

การเรียกร้องของพวกเขาที่นี่คือ"การมีส่วนร่วมหลักของเราคือการแสดงให้เห็นว่าประสิทธิภาพเหนือมนุษย์สามารถทำได้โดยปราศจากความรู้ด้านมนุษย์" (หน้า 22)

คะแนน (3) และ (4) เป็นนวนิยายในแง่ที่ว่าอัลกอริทึมของพวกเขานั้นง่ายกว่าและทั่วไปกว่าวิธีก่อนหน้านี้ พวกเขายังพูดถึงว่าเป็นการปรับปรุงงานก่อนหน้าโดย Guo et al

การรวมเครือข่ายนโยบาย / ค่า (3) ช่วยให้พวกเขาสามารถใช้การค้นหาทรี Monte-Carlo ที่มีประสิทธิภาพมากขึ้นเพื่อค้นหาการเคลื่อนไหวที่ดีและพร้อมกันโดยใช้แผนผังการค้นหาเพื่อฝึกอบรมเครือข่ายได้เร็วขึ้น (4) มันมีพลังมาก

นอกจากนี้ยังอธิบายรายละเอียดการใช้งานที่น่าสนใจอีกมากมายเช่นการสร้างแบทช์และการนำโครงสร้างข้อมูลกลับมาใช้ใหม่เพื่อปรับการค้นหาใหม่ให้เหมาะสมที่สุด

เอฟเฟ็กต์คือต้องใช้พลังงานในการประมวลผลน้อยกว่าทำงานบน 4 TPUs มากกว่า 176 GPUs และ 48 TPUs สำหรับซอฟต์แวร์รุ่นก่อนหน้า

สิ่งนี้ทำให้แน่นอน "ใหม่" ในบริบทของซอฟต์แวร์ Go ฉันเชื่อว่า (3) และ (4) เป็น "นวนิยาย" ในบริบทที่กว้างขึ้นและจะสามารถนำไปใช้ในโดเมนการเรียนรู้การเสริมแรงอื่น ๆเช่นหุ่นยนต์


ฉันคิดว่า (4) ได้รับการกล่าวถึงในการบรรยายของ David Silver - การบรรยายที่ 10 ในเกมคลาสสิค - ในหลายกรณีที่มีอยู่ MCTS ถูกชี้นำโดย ML ที่ผ่านการฝึกอบรมมาแล้ว ในกรณีของ AlphaGo Zero สิ่งนี้จะพลิกไปรอบ ๆ และผลลัพธ์ของ MCTS จะถูกใช้เพื่อกำหนดเป้าหมายการเรียนรู้สำหรับ ML อย่างไรก็ตามสิ่งที่ทำให้ฉันสงสัยว่ามันเป็น "นวนิยาย" อย่างแท้จริงคือความเป็นไปได้ของการทำเพียงแค่กล่าวถึงในการบรรยาย . .
Neil Slater
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.