AlphaGo (และโปรแกรมเกมอื่น ๆ ที่ใช้การเสริมแรงการเรียนรู้) โดยไม่มีฐานข้อมูลมนุษย์


13

ฉันไม่ได้เป็นผู้เชี่ยวชาญเรื่องและคำถามของฉันอาจไร้เดียงสามาก มันเกิดจากเรียงความเพื่อทำความเข้าใจพลังและข้อ จำกัด ของการเรียนรู้การเสริมแรงที่ใช้ในโปรแกรม AlphaGo

โปรแกรม AlphaGo ได้รับการสร้างขึ้นโดยใช้สิ่งอื่น ๆ (การสำรวจต้นไม้ - มอนติคาร์โล ฯลฯ ), โครงข่ายประสาทเทียมซึ่งได้รับการฝึกฝนจากฐานข้อมูลขนาดใหญ่ของเกมที่เล่นโดยมนุษย์และซึ่งได้รับการเสริมด้วยการให้ โปรแกรมกับตัวเองหลายครั้ง

ตอนนี้ฉันสงสัยว่าสิ่งที่จะเกิดขึ้นคือเราพยายามสร้างโปรแกรมเช่นที่ไม่มีฐานข้อมูลมนุษย์เช่นเริ่มต้นด้วยโปรแกรมพื้นฐานของ Go เพียงแค่รู้กฎและวิธีการสำรวจต้นไม้และปล่อยให้เล่นกับตัวเองเพื่อปรับปรุงโครงข่ายประสาทเทียม เราจะเล่นเกมที่สามารถแข่งขันกับหรือเอาชนะผู้เล่นที่ดีที่สุดของมนุษย์ได้หรือไม่? และถ้าเป็นเช่นนั้นจะต้องมีกี่เกม (เรียงตามขนาด) สำหรับสิ่งนั้น? หรือในทางตรงกันข้ามโปรแกรมดังกล่าวจะรวมตัวเข้าหาผู้เล่นที่อ่อนแอกว่าหรือไม่?

ฉันถือว่าการทดลองไม่ได้ถูกสร้างขึ้นเนื่องจาก AlphaGo เป็นรุ่นล่าสุด แต่อย่างไรก็ตามคำตอบอาจชัดเจนสำหรับผู้เชี่ยวชาญ ไม่เช่นนั้นการเดาที่มีการศึกษาจะทำให้ฉันสนใจ

ท่านสามารถถามคำถามเดียวกันสำหรับเกม "ง่ายกว่า" ถ้าเราใช้เทคนิคการเรียนรู้เสริมแบบเดียวกับที่ใช้กับ AlphaGo แต่โดยไม่ใช้ฐานข้อมูลมนุษย์สำหรับโปรแกรมหมากรุกในที่สุดเราจะได้โปรแกรมที่สามารถเอาชนะมนุษย์ที่ดีที่สุดได้หรือไม่? และถ้าเป็นเช่นนั้นวิธีการที่รวดเร็ว? มีการทดลองนี้หรือไม่? หรือถ้าไม่ใช่สำหรับหมากรุกแล้วหมากฮอสหรือเกมที่เรียบง่ายกว่านี้ล่ะ?

ขอบคุณมาก.

คำตอบ:


10

ฉันไม่มีความเชี่ยวชาญ แต่ดูเหมือนว่า AlphaGo Zero จะตอบคำถามของคุณ https://deepmind.com/blog/alphago-zero-learning-scratch/

AlphaGo รุ่นก่อนหน้านี้ได้รับการฝึกฝนเบื้องต้นเกี่ยวกับเกมสมัครเล่นและเกมสำหรับมืออาชีพของมนุษย์นับพันเพื่อเรียนรู้วิธีเล่น Go AlphaGo Zero ข้ามขั้นตอนนี้และเรียนรู้ที่จะเล่นง่ายๆโดยการเล่นเกมกับตัวเองเริ่มต้นจากการเล่นแบบสุ่มอย่างสมบูรณ์ ในการทำเช่นนั้นมันเหนือกว่าระดับการเล่นของมนุษย์อย่างรวดเร็วและเอาชนะ AlphaGo รุ่นที่ตีพิมพ์ก่อนหน้านี้โดย 100 เกมเป็น 0


นี่เป็นสิ่งที่ใหม่กว่านี้ไหม
kosmos

1
สิ่งนี้ถูกตีพิมพ์เมื่อวันที่ 18 ตุลาคม 2017
ncasas

มันจะน่าสนใจที่จะรู้ผลลัพธ์ต่อมนุษย์ เนื่องจากเหตุผลข้อหนึ่งสำหรับฐานข้อมูลมนุษย์ที่ผ่านการฝึกอบรมมาก่อนคือการปรับแต่งอัลกอริทึม MCTS กับฝ่ายตรงข้ามของมนุษย์ AlphaGo ดั้งเดิมได้รับการปรับให้เล่นกับมนุษย์ไม่ใช่ ML อื่น ๆ ดังนั้นจึงเป็นการยากที่จะบอกว่า AlphaGo Zero นั้น "ดีกว่า" อย่างเข้มงวดกว่า AlphaGo ดั้งเดิมหรือเพียงแค่ครอบงำในแง่ของทฤษฎีเกมเช่น AlphaGo Zero เต้น AlphaGo Beat Lee Sedol ชนะ AlphaGo Zero . .
Neil Slater

4
นีลใช่นี่จะน่าสนใจ แต่ฉันจะไม่เดิมพันร้อยละของโอกาสมนุษย์กับ Alpha Go zero
Joël

1
Q

9

มีการถามคำถามเดียวกันกับผู้เขียนบทความ AlphaGo และคำตอบของเขาคือเราไม่ทราบว่าจะเกิดอะไรขึ้นหาก AlphaGo เรียนรู้ตั้งแต่เริ่มต้น (พวกเขายังไม่ได้ทดสอบ)

อย่างไรก็ตามด้วยความซับซ้อนของเกมจึงเป็นเรื่องยากที่จะฝึกอัลกอริธึมจากศูนย์โดยไม่ต้องมีความรู้มาก่อน ดังนั้นจึงเป็นเหตุผลที่เริ่มต้นในการเริ่มสร้างระบบดังกล่าวโดยการอัพเกรดเป็นระดับปริญญาโทโดยใช้ความรู้ที่มนุษย์ได้รับ

เป็นที่น่าสังเกตว่าแม้ว่ามนุษย์จะมีอคติในการเลือกการกระทำที่โหนดต้นไม้ (รัฐ) สิ่งนี้ก่อนหน้านี้มีปัจจัยการสลายตัว ซึ่งหมายความว่าการเยี่ยมชมเพิ่มขึ้นในสถานะที่เฉพาะเจาะจงลดความแข็งแรงของก่อนที่จะส่งเสริมให้อัลกอริทึมในการสำรวจ

ระดับของ Mastery of AlphaGo ไม่ทราบว่าใกล้หรือไกลแค่ไหนต่อการเล่นของมนุษย์ (ในทัวร์นาเมนต์มันมีการเคลื่อนไหวหนึ่งครั้งที่มนุษย์มีความน่าจะเป็นเกือบเป็นศูนย์ในการแสดง! - แต่ก็มีท่าทีที่แย่เช่นกัน) . อาจเป็นไปได้ที่คำถามเหล่านี้จะต้องตอบโดยการนำอัลกอริทึมการทดสอบที่สอดคล้องกันมาใช้จริง

ฉันเป็นหนี้ที่จะแก้ไขคำตอบของฉันเนื่องจากเอกสารล่าสุดของ DeepMindตอบคำถามของคุณ มีความก้าวหน้ามากมายที่ออกมาจากประสบการณ์ที่ผ่านมาทั้งหมดกับ AlphaGo เวอร์ชันแรกและมันคุ้มค่าที่จะอ่าน


ยินดีต้อนรับ :)
Constantinos

8

เท่าที่ฉันเข้าใจอัลกอริทึมของ AlphaGo มันขึ้นอยู่กับกรอบการเรียนรู้การเสริมแรงแบบง่าย (RL) โดยใช้การค้นหาต้นไม้ Monte-Carlo เพื่อเลือกการกระทำที่ดีที่สุด ด้านบนสุดของมันสถานะและการกระทำที่ครอบคลุมโดยอัลกอริทึม RL ไม่ใช่เพียงการกำหนดค่าที่เป็นไปได้ทั้งหมดของเกม (Go มีความซับซ้อนมาก) แต่ขึ้นอยู่กับเครือข่ายนโยบายและเครือข่ายค่าเรียนรู้จากเกมจริง ปรับปรุงโดยการเล่นเกม AlphaGo กับ AlphaGo

ถ้าอย่างนั้นเราอาจสงสัยว่าการฝึกซ้อมจากเกมจริงเป็นเพียงช็อตคัตเพื่อประหยัดเวลาหรือตัวเลือกที่จำเป็นในการรับประสิทธิภาพดังกล่าว ฉันเดาว่าไม่มีใครรู้คำตอบจริงๆ แต่เราสามารถระบุสมมติฐานบางอย่างได้ ประการแรกความสามารถของมนุษย์ในการส่งเสริมการเคลื่อนไหวที่ดีนั้นเกิดจากความฉลาดที่ซับซ้อนกว่าโครงข่ายประสาทอย่างง่าย สำหรับเกมกระดานมันเป็นการผสมผสานระหว่างความจำประสบการณ์ตรรกะและความรู้สึก ในทิศทางนี้ฉันไม่แน่ใจว่าอัลกอริทึม AlphaGo สามารถสร้างแบบจำลองดังกล่าวได้โดยไม่ต้องสำรวจส่วนใหญ่ของการกำหนดค่าทั้งหมดของเกม Go (ซึ่งเป็นไปไม่ได้ในทางปฏิบัติ) งานวิจัยปัจจุบันมุ่งเน้นไปที่การสร้างเกมที่มีความซับซ้อนมากขึ้นเช่น RL เชิงสัมพันธ์หรือการเรียนรู้ตรรกะแบบอุปนัย จากนั้นสำหรับเกมที่ง่ายกว่า (อาจเป็นกรณีของหมากรุก แต่ไม่แน่ใจ)

ยังคงเป็นเพียงความเห็น แต่ฉันค่อนข้างแน่ใจว่ากุญแจสำคัญในการตอบคำถามของคุณอยู่ในแนวทาง RL ซึ่งในปัจจุบันยังค่อนข้างเรียบง่ายในแง่ของความรู้ เราไม่สามารถระบุสิ่งที่ทำให้เราสามารถจัดการกับเกมเหล่านี้ได้และวิธีที่ดีที่สุดที่เราพบจนกระทั่งยังเอาชนะมนุษย์ได้คือการเรียนรู้จากเขาอย่างคร่าว ๆ และปรับปรุงแบบจำลองที่เรียนรู้ด้วยการคำนวณขนาดใหญ่


1

การแข่งขันด้วยตนเองโดยไม่ต้องมีฐานข้อมูลของมนุษย์เป็นไปได้สำหรับสภาพแวดล้อมที่ซับซ้อนและมีข้อสังเกตเพียงบางส่วน OpenAI มุ่งเน้นไปที่ทิศทางนี้ ตามบทความนี้ :

การเล่นด้วยตนเองทำให้มั่นใจได้ว่าสภาพแวดล้อมนั้นเป็นสิ่งที่ยากลำบากในการปรับปรุง AI

นั่นเป็นเหตุผลสำคัญสำหรับความสำเร็จของการเล่นด้วยตนเอง

OpenAI บรรลุผลเหนือมนุษย์สำหรับ Dota 2 1v1 ในวันที่ 11 สิงหาคม 2017 เอาชนะ Dendi 2-0 ภายใต้กฎการแข่งขันมาตรฐาน

บอทเรียนรู้เกมตั้งแต่เริ่มต้นด้วยการเล่นด้วยตนเองและไม่ใช้การเรียนรู้เลียนแบบหรือค้นหาต้นไม้ นี่คือขั้นตอนสู่การสร้างระบบ AI ซึ่งบรรลุเป้าหมายที่กำหนดไว้อย่างดีในสถานการณ์ที่ยุ่งเหยิงและซับซ้อนซึ่งเกี่ยวข้องกับมนุษย์จริง

ไม่เพียงแค่เกมทิศทางนี้ยังมีแนวโน้มสำหรับงานหุ่นยนต์

เราพบว่าการเล่นด้วยตัวเองช่วยให้ไอไอเอจำลองค้นพบทักษะทางกายภาพเช่นการเล่นการขว้างปาการเตะการเตะการจับและการดำน้ำสำหรับลูกโดยไม่ต้องออกแบบสภาพแวดล้อมด้วยทักษะเหล่านี้ในใจ

ในขั้นตอนต่อไปพวกเขาขยายวิธีการเรียนรู้วิธีการร่วมมือแข่งขันและสื่อสารไม่ใช่แค่ จำกัด การเล่นด้วยตนเองเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.