ฟังก์ชั่นการประเมินผลของเครื่องมือหมากรุกไม่ว่าจะเป็นอินสแตนซ์สุทธิหรือรหัสที่ชัดเจนสามารถกำหนดค่าให้กับตำแหน่งกระดานใด ๆ หากคุณให้ตำแหน่งกระดานแม้ไร้สาระที่จะไม่เกิดขึ้นในเกมก็จะสามารถคายตัวเลขที่แสดงถึงว่ามันเป็นประโยชน์ต่อผู้เล่นคนใดคนหนึ่งหรือไม่ เนื่องจากจำนวนตำแหน่งของกระดานในหมากรุกมีขนาดมหึมาไม่สามารถจัดการได้การฝึกอบรมจึงสามารถเกิดขึ้นได้กับตัวอย่างเกมที่น้อยที่สุด เครื่องยนต์ไม่เพียง แต่จำค่าการคำนวณตำแหน่งของบอร์ดก่อนหน้านี้ แต่กำลังทำการคำนวณตามการจัดเรียงของชิ้นส่วน สำหรับตัวอย่างที่ไม่เกี่ยวกับระบบประสาทส่วนหนึ่งของการประเมินของเครื่องมือหมากรุกอาจจะเพิ่มมูลค่าของแต่ละชิ้นที่อยู่ด้านข้างและลบมูลค่ารวมของชิ้นส่วนของคู่ต่อสู้ จากนั้น
เมื่อเครื่องยนต์ไม่ได้รับการฝึกฝนค่าที่กำหนดให้กับตำแหน่งอาจถูกสุ่มเนื่องจากพารามิเตอร์ของฟังก์ชั่นการประเมินเริ่มต้นด้วยค่าสุ่ม (ปกติ) เป้าหมายของขั้นตอนการฝึกอบรมคือการปรับพารามิเตอร์ของเครื่องยนต์เพื่อที่จะกำหนดคะแนนสูงให้กับตำแหน่งกระดานที่เป็นสถานะที่ชนะได้สำหรับผู้เล่น
จากกระดาษใน AlphaZero (หน้า 3):
พารามิเตอร์ของโครงข่ายประสาทเทียมลึกใน AlphaZero ได้รับการฝึกอบรมโดยการเรียนรู้การเสริมแรงด้วยตนเองโดยเริ่มจากพารามิเตอร์เริ่มต้นแบบสุ่ม เกมเล่นโดยการเลือกการเคลื่อนไหวสำหรับผู้เล่นทั้งสองโดย MCTS ในตอนท้ายของเกมตำแหน่งเทอร์มินัลจะได้คะแนนตามกฎของเกมเพื่อคำนวณผลลัพธ์ของเกม: −1 สำหรับการแพ้, 0 สำหรับการเสมอและ +1 สำหรับการชนะ พารามิเตอร์เครือข่ายนิวรัลได้รับการปรับปรุงเพื่อลดข้อผิดพลาดระหว่างผลลัพธ์ที่คาดการณ์และผลลัพธ์ของเกมและเพื่อเพิ่มความคล้ายคลึงกันของนโยบายเวกเตอร์กับความน่าจะเป็นในการค้นหา
[สัญลักษณ์คณิตศาสตร์ถูกลบออกจากเครื่องหมายคำพูด]
โดยสรุปในระหว่างการฝึกอบรม AlphaZero เล่นเกมกับตัวเอง เมื่อเกมจบลงผลลัพธ์ของเกมและความแม่นยำของการทำนายว่าเกมจะดำเนินการอย่างไรเพื่อปรับโครงข่ายประสาทเพื่อให้แม่นยำมากขึ้นในเกมถัดไป AlphaZero ไม่ได้บันทึกทุกตำแหน่งที่เห็น แต่ปรับตัวเองเพื่อให้สามารถประเมินบอร์ดที่เห็นได้อย่างแม่นยำมากขึ้นในอนาคต