มันง่ายที่จะกระโดดขึ้นไปบน bandwagon ว่าการเล่นของ Alpha-Zero นั้นเป็นมนุษย์มากกว่าเกมหมากรุกคอมพิวเตอร์ก่อนหน้านี้เนื่องจากมันจะกระโดดขึ้นบนเกวียนที่ตรงกันข้ามและพูดว่าการเล่นของ Alpha-Zero นั้นเป็น 'เอเลี่ยน' ทั้งหมด ไม่ชัดเจนว่าการเล่นของอัลฟ่าศูนย์นั้นเป็น 'มนุษย์มากขึ้น' โดยเฉพาะอย่างยิ่งเนื่องจากแนวโน้มของมนุษย์ที่มีต่อมนุษย์มนุษย์
หมากรุกในการต่อสู้ของจิตใจ (มนุษย์)
แต่ในหมากรุกแนวโน้มนี้เป็นจริงหรือไม่? แมกนัสคาร์ลเซ่นเคยพูดเกี่ยวกับวิธีที่คอมพิวเตอร์ 'ดั้งเดิม' โดยทั่วไปขาดความคิดสร้างสรรค์ของมนุษย์ที่พูดว่า:
“ หมากรุกคือทั้งหมดที่เกี่ยวกับการต่อสู้ระหว่างจิตใจมนุษย์นั่นคือสิ่งที่ทำให้มันน่าตื่นเต้นหมากรุกคอมพิวเตอร์เป็นเครื่องจักรกลแห้งและอ่อนโยนการเคลื่อนไหวนั้นแข็งแกร่งมากแน่นอน แต่ไม่มีสไตล์ถ้าคุณลองเล่นกับคอมพิวเตอร์หมากรุก ไม่เพียง แต่คุณจะสูญเสียความมั่นใจสูงมาก แต่คุณจะเบื่อในกระบวนการ
แมกนัสคาร์ลเซ่นไม่เห็นหลักฐานการเล่นของมนุษย์ในคอมพิวเตอร์หมากรุกแบบดั้งเดิม ดังนั้นให้ตรวจสอบว่าความสำเร็จล่าสุดของอัลฟ่าซีโร่ได้ยกเลิกมุมมองนี้และย้ายเราไปสู่บางสิ่งที่ชวนให้นึกถึงตัวเรามากขึ้น
ถ้าโดย 'เหมือนมนุษย์' คุณหมายถึงการเล่น 'พฤติกรรมการจัดแสดงมีแนวโน้มที่จะดึงดูดความรู้สึกของมนุษย์ในรูปแบบของอัลฟ่าศูนย์' ลักษณะของอัลฟ่าศูนย์ดูเหมือนมนุษย์มากขึ้นหรือไม่? เราจะทดสอบมนุษย์สายตาสั้นที่เป็นอัตนัยนี้เพื่อฉายภาพสิ่งที่ไม่ใช่มนุษย์ได้อย่างไร? ให้ถาม - อัลกอริทึม 'เลือกที่ดีขึ้น' หรือแสดง 'ทางเลือกที่สร้างสรรค์มากขึ้นของมนุษย์' ในสไตล์การเล่น
ผู้สร้างอัลกอริทึมของแสดงให้เห็นว่าแตกต่างจาก Stockfish ซึ่งใช้วิธีการค้นหา Alpha-Beta, Alpha-Zero พนักงานค้นหาต้นไม้มอนติคาร์โล (MCTS) อัลกอริทึมที่รับเป็น input พารามิเตอร์ถ่วงน้ำหนักθสร้างขึ้นจากผลก่อนหน้า ~ หน้า 3. หมากรุก Mastering และ Shogi โดยตัวเองเล่นกับทั่วไปเสริมสร้างการเรียนรู้ขั้นตอนวิธีการ )
ดังนั้นอัลกอริทึมไม่ได้แสดงตัวเลือกเลย มันมีส่วนร่วมในการค้นหา Monty-carlo แบบสุ่ม แต่มีความน่าจะเป็นที่ซึ่งเส้นทางการค้นหาที่เป็นไปได้ที่มีอยู่นั้นมีอคติมากขึ้นจากผลลัพธ์ก่อนหน้า Alpha-zero เลือกที่จะปรับสไตล์การเล่นด้วยวิธีนี้หรือไม่หรือเป็นทางเลือกของโปรแกรมเมอร์
Alpha-zero มีการเคลื่อนไหวที่เป็นไปได้ทั้งหมดอยู่เสมอหรือไม่หรือมีการเคลื่อนไหวบางอย่างที่มีอคติในขั้นตอนวิธีที่เลียนแบบประสบการณ์ซึ่งมนุษย์สามารถตีความได้โดยมนุษย์?
ในขั้นต้นมันมีการเคลื่อนไหวทั้งหมดที่มีอยู่เพื่อให้ 'สไตล์' เป็นแบบสุ่มทั้งหมด อย่างไรก็ตามเนื่องจากการค้นหามีการ จำกัด มากขึ้นและเหมาะสมที่สุดจากความสำเร็จหรือความล้มเหลวก่อนหน้านี้สไตล์ของมันก็เปลี่ยนไปสู่โหมดที่โปรแกรมเมอร์ได้ใส่กุญแจมือไว้ นี่เป็น 'มนุษย์มากกว่า' ใช่ไหม? เปรียบเทียบสิ่งนี้กับ Magnus Carlesen ที่บางครั้งจะเลือกการเคลื่อนไหวที่ดีที่สุดน้อยลงเพราะพวกเขามีความคิดสร้างสรรค์มากขึ้น :
Magnus Carlsen:“ ฉันซาบซึ้งในการสร้างสิ่งที่ไม่เหมือนใคร”
หมากรุกเป็นการต่อสู้ของจิตใจ (มนุษย์ต่างดาว)
มนุษย์สามารถเลือกเกณฑ์ที่ขับเคลื่อนสไตล์การเล่นของตนเอง (เช่นฉันมักจะเลือกแรงกระตุ้นและข้อผิดพลาดในสไตล์ของตัวเอง) เล่นเห็นหลาย Alpha-ศูนย์ทั้งในหมากรุกและไปเป็นเด็ดคนต่างด้าว Nick Hynes นักเรียนระดับปริญญาตรีที่ห้องปฏิบัติการวิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ตั้งข้อสังเกต:
“ สิ่งที่เราเห็นที่นี่คือแบบจำลองที่ปราศจากอคติของมนุษย์และการอนุมานล่วงหน้า: มันสามารถเรียนรู้ทุกสิ่งที่มันกำหนดว่าเหมาะสมที่สุดซึ่งแน่นอนว่าอาจเหมาะสมกว่าที่แนวคิดของเราก็เหมือนกัน มันเหมือนอารยธรรมต่างดาวที่คิดค้นคณิตศาสตร์ของตัวเองซึ่งอนุญาตให้ทำสิ่งต่าง ๆ เช่นการเดินทางข้ามเวลา ... ”
ในทำนองเดียวกัน GM Peter Heine Nielsen บอก Chess.com :
“ หลังจากอ่านกระดาษ แต่โดยเฉพาะอย่างยิ่งการดูเกมที่ฉันคิดว่าดีฉันมักจะสงสัยว่ามันจะเป็นอย่างไรถ้าสายพันธุ์ที่เหนือกว่าลงบนพื้นโลกและแสดงให้เราเห็นว่าพวกเขาเล่นหมากรุกฉันรู้สึกตอนนี้ฉันรู้”
ดูเหมือนว่าส่วนใหญ่จะตอบสนองต่อรูปแบบการเล่นของ Alpha-Zero ในรูปแบบ 'การเล่นของมนุษย์ต่างดาว' และไม่ใช่ว่า 'มนุษย์มากกว่า
ดังนั้นจึงมีเหตุผลที่ไม่เห็นด้วยกับคำตอบข้างต้นที่พูดว่า 'ใช่'