ฉันไม่ได้เป็นผู้เชี่ยวชาญเรื่องและคำถามของฉันอาจไร้เดียงสามาก มันเกิดจากเรียงความเพื่อทำความเข้าใจพลังและข้อ จำกัด ของการเรียนรู้การเสริมแรงที่ใช้ในโปรแกรม AlphaGo
โปรแกรม AlphaGo ได้รับการสร้างขึ้นโดยใช้สิ่งอื่น ๆ (การสำรวจต้นไม้ - มอนติคาร์โล ฯลฯ ), โครงข่ายประสาทเทียมซึ่งได้รับการฝึกฝนจากฐานข้อมูลขนาดใหญ่ของเกมที่เล่นโดยมนุษย์และซึ่งได้รับการเสริมด้วยการให้ โปรแกรมกับตัวเองหลายครั้ง
ตอนนี้ฉันสงสัยว่าสิ่งที่จะเกิดขึ้นคือเราพยายามสร้างโปรแกรมเช่นที่ไม่มีฐานข้อมูลมนุษย์เช่นเริ่มต้นด้วยโปรแกรมพื้นฐานของ Go เพียงแค่รู้กฎและวิธีการสำรวจต้นไม้และปล่อยให้เล่นกับตัวเองเพื่อปรับปรุงโครงข่ายประสาทเทียม เราจะเล่นเกมที่สามารถแข่งขันกับหรือเอาชนะผู้เล่นที่ดีที่สุดของมนุษย์ได้หรือไม่? และถ้าเป็นเช่นนั้นจะต้องมีกี่เกม (เรียงตามขนาด) สำหรับสิ่งนั้น? หรือในทางตรงกันข้ามโปรแกรมดังกล่าวจะรวมตัวเข้าหาผู้เล่นที่อ่อนแอกว่าหรือไม่?
ฉันถือว่าการทดลองไม่ได้ถูกสร้างขึ้นเนื่องจาก AlphaGo เป็นรุ่นล่าสุด แต่อย่างไรก็ตามคำตอบอาจชัดเจนสำหรับผู้เชี่ยวชาญ ไม่เช่นนั้นการเดาที่มีการศึกษาจะทำให้ฉันสนใจ
ท่านสามารถถามคำถามเดียวกันสำหรับเกม "ง่ายกว่า" ถ้าเราใช้เทคนิคการเรียนรู้เสริมแบบเดียวกับที่ใช้กับ AlphaGo แต่โดยไม่ใช้ฐานข้อมูลมนุษย์สำหรับโปรแกรมหมากรุกในที่สุดเราจะได้โปรแกรมที่สามารถเอาชนะมนุษย์ที่ดีที่สุดได้หรือไม่? และถ้าเป็นเช่นนั้นวิธีการที่รวดเร็ว? มีการทดลองนี้หรือไม่? หรือถ้าไม่ใช่สำหรับหมากรุกแล้วหมากฮอสหรือเกมที่เรียบง่ายกว่านี้ล่ะ?
ขอบคุณมาก.