ทำไมผู้เชี่ยวชาญหมากรุกถึงต้องประหลาดใจกับชัยชนะของ AlphaZero ต่อ Stockfish?

10

มันถูกนำมาเมื่อเร็ว ๆ นี้ความสนใจของฉันว่าผู้เชี่ยวชาญหมากรุกเอาผลการแข่งขันในขณะนี้ที่มีชื่อเสียงนี้เป็นสิ่งที่มีความไม่สบายใจ

ดู: ผู้เล่นใหม่ที่ดีที่สุดของหมากรุกคืออัลกอริทึมที่กล้าหาญและกล้าหาญ

ในฐานะที่ไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับหมากรุกและหมากรุก AI ข้อสันนิษฐานของฉันคือว่าขึ้นอยู่กับประสิทธิภาพของ AlphaGo และการตรวจสอบวิธีการประเภทนั้นเกี่ยวกับเกม combinatorial คือ AI ที่มีอายุมากกว่าจะไม่มีโอกาส

เหตุใดชัยชนะของอัลฟ่าซีโรจึงน่าประหลาดใจ

chess alphazero

— DukeZhou
แหล่งที่มา

14

คำถามที่ดี.

สิ่งแรกและสำคัญที่สุดคือใน Go deepmind ไม่มีฝ่ายตรงข้ามเหนือมนุษย์ที่จะท้าทาย เครื่องยนต์ Go ไม่ได้อยู่ใกล้กับระดับสูงสุดของผู้เล่นระดับสูงของมนุษย์ ในหมากรุกอย่างไรก็ตามเครื่องยนต์มีคะแนน 500 ELO ที่แข็งแกร่งกว่าผู้เล่นระดับสูงของมนุษย์ นี่คือความแตกต่างอย่างมาก จำนวนของงานที่เข้าสู่เอ็นจิ้นหมากรุกร่วมสมัยกำลังส่าย เรากำลังพูดถึงการเขียนโปรแกรมเป็นล้าน ๆ ชั่วโมงการทำซ้ำหลายแสนครั้ง มันเป็นองค์ความรู้และการทำงานที่ยิ่งใหญ่ การเอาชนะและเหนือกว่าทั้งหมดนั้นใน 4 ชั่วโมงคือการส่าย

ประการที่สองมันไม่ได้ผลมากนักซึ่งเป็นที่น่าแปลกใจสำหรับนักเล่นหมากรุก แต่แทนที่จะเป็นวิธีที่ AlphaZero เล่นหมากรุก มันค่อนข้างน่าขันที่ระบบที่ไม่มีความรู้หรือความเชี่ยวชาญของมนุษย์เล่นเหมือนที่เราทำ เอ็นจิ้นมีชื่อเสียงในการเล่นท่าทางที่ดูน่าเกลียดผู้ที่ขาดความสามัคคี ฯลฯ มันยากที่จะอธิบายให้ผู้เล่นที่ไม่ใช่หมากรุก แต่มันมีสิ่งที่เรียกว่า AlphaZero ไม่เล่นแบบนี้เลย มันมีสไตล์ที่คล้ายมนุษย์มาก ๆ ซึ่งมันครองส่วนของฝ่ายตรงข้ามด้วยการเล่นเชิงกลยุทธ์อย่างลึกล้ำและการเสียสละตำแหน่งอันน่าทึ่ง AlphaZero เล่นในแบบที่เราปรารถนาโดยการรวมความเข้าใจเกี่ยวกับตำแหน่งที่ลึกเข้ากับความแม่นยำของการคำนวณเครื่องยนต์

แก้ไข โอ้และฉันลืมพูดถึงบางสิ่งเกี่ยวกับผลลัพธ์เอง หากคุณไม่คุ้นเคยกับการเล่นหมากรุกคอมพิวเตอร์มันอาจดูไม่แปลก แต่ก็เป็นเช่นนั้น

ทุกวันนี้ขอบแห่งชัยชนะซึ่งแยกจากเครื่องยนต์ร่วมสมัยชั้นนำนั้นบางเฉียบ ในการแข่งขัน 100 เกมคุณคาดหวังว่าจะเห็นผลลัพธ์เช่น 85 เกมที่ถูกจับ 9 ชัยชนะและการสูญเสีย 6 อย่างเพื่อกำหนดกลไกที่ดีกว่า

อัลฟาเซโร่ชนะ 28 และ 72 เสมอโดยมีการสูญเสียเป็นศูนย์ถูกบดขยี้และไม่สามารถคิดได้อย่างสมบูรณ์จนถึงวินาทีที่มันเกิดขึ้น

— คริสดี
แหล่งที่มา

คำตอบที่ดี จุดของคุณเกี่ยวกับการเปรียบเทียบระหว่างหมากรุกของ AI นั้นน่าสนใจในแง่ของข้อ จำกัด โดยพิจารณาจากความวนรอบของหมากรุกและกลุ่มชนะ / แพ้ / วาด (อาจเป็นไปได้ว่าในอนาคตเราจะต้องมีเกมที่ จำกัด และไม่ยอมให้มีการวิเคราะห์อย่างละเอียดมากขึ้นในแง่ของผลลัพธ์) ฉันคุ้นเคยกับประวัติของหมากรุกเอ็นจิ้นและความพยายามและความรู้ของมนุษย์จำนวนมาก บริบทของการขาดความสำเร็จอีกครั้ง: ความซับซ้อนมากขึ้น 19x19 Go มีการกระจายที่ตรงกันข้ามกับฉัน

— DukeZhou

โดยเฉพาะอย่างยิ่งข้อสันนิษฐานของฉันคือถ้า AlphaGo สามารถเอาชนะมนุษย์ชั้นนำในเกมที่มีความซับซ้อนมากขึ้นดูเหมือนว่ามันจะไม่เพียงเอาชนะมนุษย์อันดับต้น ๆ แต่เป็น AI อันดับสูงสุดก่อนหน้าในเกมอื่น ๆ

— DukeZhou

บิตเกี่ยวกับท่าทางการเคลื่อนไหวนั้นค่อนข้างสำคัญและไม่ใช่สิ่งที่ฉันเคยเห็นผู้เล่นที่ไม่ใช่นักหมากรุกพูดถึง +1

— Stella Biderman

4

MCTS สำหรับหมากรุกได้รับการทดลองในวรรณกรรมด้วยความสำเร็จเพียงเล็กน้อย มันถูกสันนิษฐานว่าแนวทางของ AlphaGo จะไม่ทำงานกับหมากรุกบางทีอาจเป็นใน Go แต่ไม่ใช่ในหมากรุก ทันใดนั้น Google ประกาศวิธีการทำงานและมันก็เต้นโปรแกรมหมากรุกที่แข็งแกร่งที่สุดในโลกโดยอัตรากำไรขั้นต้นที่สำคัญมาก

ก่อน Google ผู้เขียนโปรแกรมหมากรุกทั้งหมดได้รับการสอนการสร้างฮิวริสติกในการเขียนโปรแกรมเครื่องยนต์เป็นกลยุทธ์ที่ดีกว่าการเรียนรู้ของเครื่อง ไม่ว่าคุณจะใช้งานโครงข่ายประสาทอย่างไรก็ไม่เคยวิ่งเร็วกว่าคำแนะนำบิต 64 บิต AlphaGo ทำงานค่อนข้างช้าแต่เล่นหมากรุกได้แรงที่สุด

— สวัสดีชาวโลก
แหล่งที่มา

2

ฉันเห็นว่ามีหลายระดับของความประหลาดใจในชัยชนะที่เห็น: จากบทความที่คุณให้

หมากรุกเป็นเกมที่ยากที่จะเชี่ยวชาญและส่วนเคาน์เตอร์มีแนวปฏิบัติที่ดีที่สุดในโลก AlphaZero มีตาราง

การเรียนรู้ใช้เวลาสี่ชั่วโมงและ AlphaZero ไม่แพ้การแข่งขัน 100

สไตล์การเล่นเป็นมนุษย์ต่างดาวผสมกับคอมพิวเตอร์เช่นการเคลื่อนไหวก้าวร้าวและบางครั้งก็ดูไร้สาระด้วยการเสียสละที่ไม่มีความคิด แต่จริง ๆ แล้วทำให้สถานะในอนาคตแข็งแกร่งขึ้น

จำนวนที่เป็นไปได้ในบัญชีต่อการเคลื่อนไหวน้อยกว่าส่วนที่เคาน์เตอร์ AlphaZero มีความรู้สึกที่ลึกลับหรือสัญชาตญาณ

ความรู้สึกไม่สบายใจมาจากปริมาณวัสดุการฝึกอบรมที่ AlphaZero สร้างขึ้นด้วยตัวเองและเวลาที่กำหนดซึ่งอาจไม่ได้ให้เวลาแบบดั้งเดิมของเครื่องจักร

— แฟลช
แหล่งที่มา

Aaah ดังนั้นจึงเกิดจากการขาดความมั่นใจในวิธีการใหม่ของ AI นั่นทำให้รู้สึก

— DukeZhou