AlphaGo ศูนย์บทความจากธรรมชาติ "Mastering เกมของไปโดยไม่มีความรู้ของมนุษย์" เรียกร้องสี่แตกต่างที่สำคัญจากรุ่นก่อนหน้านี้:
- การเรียนรู้ด้วยตนเองเท่านั้น (ไม่ได้รับการฝึกฝนในเกมของมนุษย์)
- ใช้เฉพาะบอร์ดและหินเป็นอินพุต (ไม่มีคุณสมบัติที่เขียนด้วยมือ)
- ใช้เครือข่ายประสาทเดียวสำหรับนโยบายและค่านิยม
- อัลกอริทึมการค้นหาแบบต้นไม้ใหม่ที่ใช้เครือข่ายนโยบาย / ค่ารวมนี้เพื่อเป็นแนวทางในการค้นหาความเคลื่อนไหวที่ดี
คะแนน (1) และ (2) ไม่ใช่เรื่องใหม่ในการเรียนรู้การเสริมแรง แต่ปรับปรุงซอฟต์แวร์AlphaGoก่อนหน้าตามที่ระบุไว้ในข้อคิดเห็นของคำถามของคุณ นั่นหมายความว่าพวกเขากำลังใช้การเรียนรู้การเสริมแรงอย่างแท้จริงโดยเริ่มจากน้ำหนักเริ่มต้นแบบสุ่ม สิ่งนี้เปิดใช้งานโดยอัลกอริทึมการเรียนรู้ที่ดีกว่าและเร็วกว่า
การเรียกร้องของพวกเขาที่นี่คือ"การมีส่วนร่วมหลักของเราคือการแสดงให้เห็นว่าประสิทธิภาพเหนือมนุษย์สามารถทำได้โดยปราศจากความรู้ด้านมนุษย์" (หน้า 22)
คะแนน (3) และ (4) เป็นนวนิยายในแง่ที่ว่าอัลกอริทึมของพวกเขานั้นง่ายกว่าและทั่วไปกว่าวิธีก่อนหน้านี้ พวกเขายังพูดถึงว่าเป็นการปรับปรุงงานก่อนหน้าโดย Guo et al
การรวมเครือข่ายนโยบาย / ค่า (3) ช่วยให้พวกเขาสามารถใช้การค้นหาทรี Monte-Carlo ที่มีประสิทธิภาพมากขึ้นเพื่อค้นหาการเคลื่อนไหวที่ดีและพร้อมกันโดยใช้แผนผังการค้นหาเพื่อฝึกอบรมเครือข่ายได้เร็วขึ้น (4) มันมีพลังมาก
นอกจากนี้ยังอธิบายรายละเอียดการใช้งานที่น่าสนใจอีกมากมายเช่นการสร้างแบทช์และการนำโครงสร้างข้อมูลกลับมาใช้ใหม่เพื่อปรับการค้นหาใหม่ให้เหมาะสมที่สุด
เอฟเฟ็กต์คือต้องใช้พลังงานในการประมวลผลน้อยกว่าทำงานบน 4 TPUs มากกว่า 176 GPUs และ 48 TPUs สำหรับซอฟต์แวร์รุ่นก่อนหน้า
สิ่งนี้ทำให้แน่นอน "ใหม่" ในบริบทของซอฟต์แวร์ Go ฉันเชื่อว่า (3) และ (4) เป็น "นวนิยาย" ในบริบทที่กว้างขึ้นและจะสามารถนำไปใช้ในโดเมนการเรียนรู้การเสริมแรงอื่น ๆเช่นหุ่นยนต์