เมื่อไม่นานมานี้มีข่าวออกมาว่าทีมวิจัย DeepMind ของ Alphabet ได้ขยายเครื่องมือการเรียนรู้ของเครื่องเพื่อเล่นทั้ง Shogi และหมากรุก เห็นได้ชัดหลังจากเพียงไม่กี่ชั่วโมงของการเรียนรู้ด้วยตนเองความหมายโดยการเล่นกับตัวเองเท่านั้นที่กำหนดกฎของเกมประสิทธิภาพการทำงานในหมากรุกได้แล้วเกินกว่าเครื่องยนต์ปัจจุบันด้านบนเช่น Stockfish 8. ฉันเองก็ไม่รู้เหมือนกันว่าตั้งค่าการแข่งขันไว้ตรงไหนภายใต้เงื่อนไขที่ Stockfish ตั้งไว้ให้ปฏิบัติเพราะถ้าเวลาในการคำนวณนั้น จำกัด เครื่องยนต์จะสามารถทำงานได้แย่มาก ไม่ว่าในกรณีใด ๆ นี่เป็นความสำเร็จที่น่าประทับใจมากเพราะถึงแม้ว่ามันจะปรากฎว่าสามารถสร้าง Stockfish ได้อย่างเหมาะสมที่สุดด้วยการฝึกฝนเพิ่มเติมไม่กี่ชั่วโมง AlphaZero ก็จะก้าวข้ามระดับการเล่นอีกครั้งซึ่งหมายความว่า AlphaZero แข็งแกร่งกว่าเดิม เอ็นจิ้นหมากรุกมาตรฐานตามฟังก์ชั่นการประเมินฮิวริสติก
ตอนนี้ในแง่ของข่าวนี้มันจะดีถ้ามีคนสามารถอธิบายความแตกต่างที่สำคัญในการทำงานของเครื่องเรียนรู้เครื่องมือหมากรุกเมื่อเทียบกับเครื่องยนต์มาตรฐานที่เราทุกคนคุ้นเคยกับการใช้ เป็นรูปธรรมมากขึ้น:
- ฟังก์ชั่นการประเมินผลที่ AlphaZero ใช้ไม่ได้รับการฝึกฝนโดยวิธีการเรียนรู้ของเครื่องจักรในตอนท้ายฟังก์ชั่นการประเมินแบบฮิวริสติกอีกฟังก์ชั่นหรือไม่ ถ้าใช่มันจะยุติธรรมหรือไม่ที่จะบอกว่าความแตกต่างพื้นฐานระหว่างฟังก์ชั่นการประเมินของเครื่องยนต์ทั้งสองนั้นคือข้อเท็จจริงที่ว่า Stockfish มีฟังก์ชั่นการประเมินที่ได้รับการปรับแต่งโดยมนุษย์ด้วยมือ AlphaZero, ฟังก์ชั่นการประเมินเป้าหมายจะถูกกำหนดใหม่อย่างต่อเนื่องผ่านการฝึกอบรมเพิ่มเติม (เช่นผ่านการเล่นด้วยตนเอง)? ทำให้สิ่งหลังเป็นสิ่งที่มีพลังมากขึ้น
ในที่สุดการพูดคลุมเครือเครื่องยนต์เช่น Stockfish ใช้ฟังก์ชั่นการประเมินผลกับต้นไม้ของการเคลื่อนไหวที่เป็นไปได้ตัดสินใจที่สาขาที่จะเก็บและที่จะวางแล้วผ่านคอนกรีตลึกการวิเคราะห์ของแต่ละสาขาอีกครั้งผ่านฟังก์ชั่นการประเมินมันแสดงให้เห็นว่าสาขาใดให้คุณค่าสูงสุดและกลายเป็นการเปลี่ยนแปลงที่สำคัญ (แน่นอนว่ามีเทคนิคขั้นสูงมากมายรอบกระบวนการนี้เพื่อตัดต้นไม้ขนาดใหญ่นี้ได้อย่างมีประสิทธิภาพ) ความหมายสำหรับแต่ละตำแหน่งงานประจำที่เป็นรูปธรรมนี้จะต้องมีการทำซ้ำสำหรับ Stockfish เพื่อตัดสินใจ ในทางตรงกันข้ามฉันคิดว่า AlphaZero ทำสิ่งที่แตกต่างกันมากกล่าวคือมันไม่ได้พึ่งพาการวิเคราะห์ที่เป็นรูปธรรมของต้นไม้ที่เป็นไปได้ในตำแหน่งที่กำหนดแทนที่จะฟังก์ชั่นการประเมินของมันจะกำหนดค่าให้กับตำแหน่งนั้น ตำแหน่งปัจจุบันในการเปรียบเทียบกับตำแหน่งอื่น ๆ ทั้งหมดที่ได้รับการฝึกอบรมสำหรับ) โดยไม่ต้องทำคอนกรีตการวิเคราะห์ในแบบที่ Stockfish หรือแม้แต่ผู้เล่นมนุษย์ทำ นี่เป็นภาพเสียงของการทำงานของ AlphaZero หรือเครื่องมือการเรียนรู้ของเครื่องที่ผ่านการฝึกอบรมมาแล้วหรือไม่?
เรารู้ว่าพื้นที่ของตำแหน่งหมากรุกมีขนาดใหญ่พอที่ความพยายามใด ๆ ในการสุ่มตัวอย่างตำแหน่งทั้งหมดในนั้นจะเป็นไปได้แม้ในหลักการอย่างสมบูรณ์ในความไร้ประโยชน์ (ความซับซ้อน EXPTIME) ที่จะแนะนำว่าไม่มีการฝึกอบรม มีการสำรวจทุกตำแหน่งดังนั้นผลลัพธ์ที่ได้จะดีอย่างไรแม้ว่าจะมีการสำรวจตำแหน่งของพื้นที่เพียงเล็กน้อยด้วยการเล่นด้วยตัวเอง แนวคิดหลักในการเล่นคืออะไร
ฉันเดาว่า AlphaZero มีวิธีที่ดีที่สุดในการเปรียบเทียบตำแหน่งที่กำหนดแม้ว่าจะใหม่กับตำแหน่งที่เคยเข้าชมก่อนหน้านี้ในชุดฝึกอบรมยิ่งมีการเปรียบเทียบมากเท่าใดการประเมินที่ถูกต้องก็สามารถดึงมาจากการเปรียบเทียบได้มากขึ้น ตัวอย่างเช่นเมื่อเล่นBg5 ในเกมที่ 5มันจะต้องสำรวจโครงสร้างที่คล้ายกันในระหว่างการฝึกอบรมนั่นคือมันสามารถที่จะรับรู้ได้ว่าตำแหน่งนี้มีความสำคัญเทียบเท่ากับ (ต่างไปจากเดิมอย่างสิ้นเชิง) ที่ศึกษาในการฝึกอบรม คล้ายคลึงกับวิธีการจดจำใบหน้าผ่านการเรียนรู้ของเครื่องและผลลัพธ์สรุปว่า Bg5 น่าจะเป็นการเคลื่อนไหวที่ดีที่สุดเช่นเดียวกับในตำแหน่งอื่น ๆ ที่คล้ายกัน นี่เป็นการคาดเดาที่ถูกต้องหรือไม่? ฉันไม่รู้ว่าการเปรียบเทียบนี้เป็นอย่างไร เสร็จสิ้นแล้วแน่นอนว่าไม่สามารถจัดเก็บตำแหน่งที่ผ่านการฝึกอบรมทั้งหมดและแยกวิเคราะห์ได้ในแต่ละครั้ง
นี่เป็นเพียงความพยายามในการทำความเข้าใจอย่างลึกซึ้งเกี่ยวกับการทำงานของ AlphaZero และวิธีการตัดสินใจในตำแหน่ง