ทำความเข้าใจกับ AlphaZero
เมื่อไม่นานมานี้มีข่าวออกมาว่าทีมวิจัย DeepMind ของ Alphabet ได้ขยายเครื่องมือการเรียนรู้ของเครื่องเพื่อเล่นทั้ง Shogi และหมากรุก เห็นได้ชัดหลังจากเพียงไม่กี่ชั่วโมงของการเรียนรู้ด้วยตนเองความหมายโดยการเล่นกับตัวเองเท่านั้นที่กำหนดกฎของเกมประสิทธิภาพการทำงานในหมากรุกได้แล้วเกินกว่าเครื่องยนต์ปัจจุบันด้านบนเช่น Stockfish 8. ฉันเองก็ไม่รู้เหมือนกันว่าตั้งค่าการแข่งขันไว้ตรงไหนภายใต้เงื่อนไขที่ Stockfish ตั้งไว้ให้ปฏิบัติเพราะถ้าเวลาในการคำนวณนั้น จำกัด เครื่องยนต์จะสามารถทำงานได้แย่มาก ไม่ว่าในกรณีใด ๆ นี่เป็นความสำเร็จที่น่าประทับใจมากเพราะถึงแม้ว่ามันจะปรากฎว่าสามารถสร้าง Stockfish ได้อย่างเหมาะสมที่สุดด้วยการฝึกฝนเพิ่มเติมไม่กี่ชั่วโมง AlphaZero ก็จะก้าวข้ามระดับการเล่นอีกครั้งซึ่งหมายความว่า AlphaZero แข็งแกร่งกว่าเดิม เอ็นจิ้นหมากรุกมาตรฐานตามฟังก์ชั่นการประเมินฮิวริสติก ตอนนี้ในแง่ของข่าวนี้มันจะดีถ้ามีคนสามารถอธิบายความแตกต่างที่สำคัญในการทำงานของเครื่องเรียนรู้เครื่องมือหมากรุกเมื่อเทียบกับเครื่องยนต์มาตรฐานที่เราทุกคนคุ้นเคยกับการใช้ เป็นรูปธรรมมากขึ้น: ฟังก์ชั่นการประเมินผลที่ AlphaZero ใช้ไม่ได้รับการฝึกฝนโดยวิธีการเรียนรู้ของเครื่องจักรในตอนท้ายฟังก์ชั่นการประเมินแบบฮิวริสติกอีกฟังก์ชั่นหรือไม่ ถ้าใช่มันจะยุติธรรมหรือไม่ที่จะบอกว่าความแตกต่างพื้นฐานระหว่างฟังก์ชั่นการประเมินของเครื่องยนต์ทั้งสองนั้นคือข้อเท็จจริงที่ว่า Stockfish มีฟังก์ชั่นการประเมินที่ได้รับการปรับแต่งโดยมนุษย์ด้วยมือ AlphaZero, ฟังก์ชั่นการประเมินเป้าหมายจะถูกกำหนดใหม่อย่างต่อเนื่องผ่านการฝึกอบรมเพิ่มเติม (เช่นผ่านการเล่นด้วยตนเอง)? ทำให้สิ่งหลังเป็นสิ่งที่มีพลังมากขึ้น ในที่สุดการพูดคลุมเครือเครื่องยนต์เช่น Stockfish ใช้ฟังก์ชั่นการประเมินผลกับต้นไม้ของการเคลื่อนไหวที่เป็นไปได้ตัดสินใจที่สาขาที่จะเก็บและที่จะวางแล้วผ่านคอนกรีตลึกการวิเคราะห์ของแต่ละสาขาอีกครั้งผ่านฟังก์ชั่นการประเมินมันแสดงให้เห็นว่าสาขาใดให้คุณค่าสูงสุดและกลายเป็นการเปลี่ยนแปลงที่สำคัญ (แน่นอนว่ามีเทคนิคขั้นสูงมากมายรอบกระบวนการนี้เพื่อตัดต้นไม้ขนาดใหญ่นี้ได้อย่างมีประสิทธิภาพ) ความหมายสำหรับแต่ละตำแหน่งงานประจำที่เป็นรูปธรรมนี้จะต้องมีการทำซ้ำสำหรับ Stockfish เพื่อตัดสินใจ ในทางตรงกันข้ามฉันคิดว่า AlphaZero ทำสิ่งที่แตกต่างกันมากกล่าวคือมันไม่ได้พึ่งพาการวิเคราะห์ที่เป็นรูปธรรมของต้นไม้ที่เป็นไปได้ในตำแหน่งที่กำหนดแทนที่จะฟังก์ชั่นการประเมินของมันจะกำหนดค่าให้กับตำแหน่งนั้น ตำแหน่งปัจจุบันในการเปรียบเทียบกับตำแหน่งอื่น ๆ ทั้งหมดที่ได้รับการฝึกอบรมสำหรับ) …