ฮาร์ดแวร์ที่ใช้ในการจับคู่ AlphaZero กับ Stockfish


22

ฉันเข้าใจว่า AlphaZero ต้องใช้ฮาร์ดแวร์ชนิดอื่นนอกเหนือจาก Stockfish ปกติ ฉันคาดหวังว่าฮาร์ดแวร์จะมีผลอย่างมากต่อความแข็งแกร่งของเครื่องยนต์ นั่นเป็นเหตุผลที่ฉันสงสัยว่ามีความพยายามใด ๆ ในการจัดหาฮาร์ดแวร์ที่เปรียบเทียบได้กับทั้งคู่หรือไม่ นอกจากนี้ "เทียบเคียง" หมายถึงอะไรที่นี่

โดยเฉพาะฉันอ่านว่าคนบ่นเกี่ยวกับ:

  • Stockfish ได้รับแคชเพียง 1 GB และ
  • จำกัด เวลา 1 นาที / การย้าย (Stockfish จะเสียเปรียบอย่างไร?)

ขนาดแฮชไม่ใช่แคชอย่างชัดเจน
Federico Poloni

2
ฉันขอแนะนำอย่างยิ่งให้ถามสิ่งนี้ในฟอรัมทางเทคนิค (เช่นAI Stack Exchangeอาจมีชื่อว่า "ความเป็นธรรมของการประเมินผลในการแข่งขัน AlphaZero vs. Stockfish") เพราะคำตอบที่นี่ไม่ดี
Veedrac

คำตอบ:


20

นั่นเป็นเหตุผลที่ฉันสงสัยว่ามีความพยายามใด ๆ ในการจัดหาฮาร์ดแวร์ที่เปรียบเทียบได้กับทั้งคู่หรือไม่

นี่คือ Google ที่คุณกำลังพูดถึง! ดังนั้นคำตอบจึงชัดเจนว่า "ไม่"

จากฮาร์ดแวร์กระดาษต้นฉบับที่ใช้สำหรับการเริ่มต้นและการฝึกอบรม -

การฝึกอบรมดำเนินการไป 700,000 ขั้นตอน (มินิแบทช์ขนาด 4,096) เริ่มต้นจากการสุ่มพารามิเตอร์เริ่มต้นโดยใช้ 5,000 รุ่นแรก TPUs (15) เพื่อสร้างเกมเล่นด้วยตัวเองและรุ่นที่สอง 64 วินาทีเพื่อฝึกฝนโครงข่ายประสาทเทียม

และฮาร์ดแวร์ที่ใช้สำหรับเกม -

AlphaZero และ AlphaGo Zero ก่อนหน้าใช้เครื่องเดียวกับ 4 TPUs Stockfish และ Elmo เล่นในระดับทักษะที่แข็งแกร่งที่สุดโดยใช้ 64 เธรดและขนาดแฮช 1GB

ดังนั้น AlphaZero จึงใช้ฮาร์ดแวร์พิเศษที่พัฒนาโดย Google มันใช้หน่วยประมวลผลเทนเซอร์พิเศษ (TPU) แทนหน่วยประมวลผลกลางทั่วไป (CPU) ที่มีวางจำหน่ายทั่วไป

นี่คือวิธีที่ Wikipedia อธิบายถึง TPU รุ่นที่สองที่ใช้ -

TPU รุ่นที่สองประกาศในเดือนพฤษภาคม 2017 Google ระบุว่าการออกแบบ TPU รุ่นแรกคือแบนด์วิดท์หน่วยความจำที่ จำกัด และการใช้หน่วยความจำแบนด์วิดท์สูง 16 GB ในการออกแบบรุ่นที่สองเพิ่มแบนด์วิดท์เป็น 600 GB / s และประสิทธิภาพเป็น 45 TFLOPS จากนั้น TPU จะถูกจัดเรียงเป็นโมดูล 4 TFLOPS 180 ชิป

พวกเขาใช้ 4 TPU สำหรับเกมดังนั้นพลังการประมวลผลของ 180 TFLOPS หมายเหตุ TFLOPS = การดำเนินการจุดลอยตัว 1,000,000 ล้านต่อวินาที

สำหรับการเปรียบเทียบชิปที่ทรงพลังที่สุดของ Intel คือโปรเซสเซอร์ Core i9 Extreme Edition ซึ่งมีนาฬิกาที่ 1 TFLOP จุดสูงสุดของบรรทัด I7 ที่คุณจะพบในเครื่องเกมมักจะมีประมาณ 100 GFLOP (เช่นหนึ่งในสิบของ TFLOP)

ฉันคิดว่ามันยุติธรรมที่จะบอกว่า AlphaZero ใช้กอริลลา 800 ปอนด์ของการกำหนดค่าฮาร์ดแวร์เมื่อเทียบกับเมาส์ Stockfishes


1
FLOPS ย่อมาจากการดำเนินการจุดลอยตัวต่อวินาที เลขทศนิยมไม่น่าจะถูกนำมาใช้ในอัลกอริธึมหลักของ Stockfish และ AlphaZero ดังนั้นจำนวนของ FLOPS จึงไม่ใช่ตัวชี้วัดความเร็วโปรเซสเซอร์ที่เกี่ยวข้องกับตัวหมากรุก
René Pijl

9
ในทางตรงกันข้ามฉันเชื่อว่าอวนประสาทใช้เลขคณิตจุดลอยตัวค่อนข้างหนาแน่น (แต่แน่นอนว่าคำพูดของคุณเหมาะสมอย่างยิ่งและนำไปใช้กับสต็อคฟิช)
Federico Poloni

3
การเปรียบเทียบที่ฉลาดกว่านั้นคือ GPU NVIDIA Tesla V100 สามารถทำ 120 TFLOPS เพิ่มขึ้นจากรุ่นก่อนหน้า (P100) ซึ่งทำได้เพียงประมาณ 20 เท่านั้นซีพียูได้รับการปรับแต่งให้แตกต่างจาก GPU ที่มีจำนวนตัวเลขมาก
Nick T

12

ฉันคิดว่ามันจะดีที่สุดถ้าฉันอธิบายอย่างละเอียดในประเด็นที่สองของคุณด้วยตัวอย่างการย้ายในเกมที่ 1 ระหว่าง AlphaZero และ Stockfish ซึ่งทำหน้าที่ตอบสนองความอยากรู้ของฉันในวันนี้

จำกัด เวลา 1 นาที / การย้าย (Stockfish จะเสียเปรียบอย่างไร?)

ประสิทธิภาพของสต็อคฟิชนั้นขึ้นอยู่กับการ จำกัด เวลาและการกำหนดค่าฮาร์ดแวร์ดังนั้นให้คิดว่าเมื่อมีคนเพิ่มเธรดซีพียูเป็นสองเท่าดังนั้นสต็อคฟิชจึงใช้เวลาน้อยลง (ไม่จำเป็นต้องครึ่งหนึ่ง) ในการค้นหาโซลูชัน

ในรายงานแรกที่โพสต์บน Chess.comมีคนอ้างว่า Stockfish ไม่เล่นอย่างเหมาะสมเพราะเขาไม่สามารถทำซ้ำผลลัพธ์เดียวกันโดยใช้ Stockfish เดียวกันบนคอมพิวเตอร์ของเขา เขาบอกว่าในตำแหน่งด้านล่าง (เกมที่ 1 - ย้าย 11) สต็อคฟิชเล่น Kg1-h1 (ย้ายราชา) ซึ่งไม่สมเหตุสมผลเลย ในทางกลับกัน stockfish ในคอมพิวเตอร์ของเขาแสดงท่าทีที่พัฒนามากขึ้นเช่น Be3 (ย้ายบิชอปสแควร์เข้ม) มาดูที่ตำแหน่ง:

เกมที่ 1 ระหว่างเดินทาง 11

ใช่มันเป็นการเคลื่อนไหวแบบพาสซีฟและดูเหมือนว่าสต็อคฟิชน่าจะเล่นได้ดีกว่า แต่เขาผิด ทำไม? เพราะเขาวิ่งสต็อกฟิชเป็นเวลา 15 วินาทีและถ้าเขาวิ่งเป็นเวลาหนึ่งชั่วโมงเขาจะได้รับ Kg1-h1 เป็นท่าที่ดีที่สุดในตำแหน่งนั้น การเปลี่ยนแปลงสต็อคฟิชเป็นการตัดสินใจเมื่อวิเคราะห์การเคลื่อนไหวที่เป็นไปได้ทั้งหมดในเชิงลึก นี่คือสิ่งที่ฉันพูดไว้ในคำตอบของฉัน :

ฉันวิ่ง stockfish ล่าสุดที่ตำแหน่ง (ที่ย้าย 11):

  • ตอนแรกมันให้ b4 เป็นการเคลื่อนที่ที่ดีที่สุดเมื่อเครื่องยนต์ทำงานเป็นเวลาประมาณหนึ่งนาที หลังจากนั้น Be3 จะตัดสินว่าดีกว่า
  • แต่หลังจาก 5 นาทีบนฮาร์ดแวร์ของฉันที่ทำงานบน 1,400k nodes / s มันจะตัดสินใจใช้ Kh1 เป็นการเคลื่อนไหวที่ดีที่สุด

  • ในกระดาษมีการกล่าวว่า stockfish คำนวณตำแหน่ง 70,000k ต่อวินาทีและทำงานเป็นเวลา 1 นาทีต่อการเคลื่อนไหวนั่นคือประมาณ 50 เท่าของฮาร์ดแวร์ของฉันดังนั้นฉันจะปล่อยให้ฉันทำงานเป็นเวลา 50 นาที ... Kg1-h1 ยังคงเป็น ทางเลือกสำหรับ Stockfish

การ จำกัด เวลาเป็นกุญแจสำคัญ

ในกรณีข้างต้นมันอาจไม่สำคัญหาก Stockfish วิ่งสองครั้งเพราะการตัดสินใจจะเหมือนกัน แต่ในการย้ายครั้งต่อไปแน่นอน :

ป้อนคำอธิบายรูปภาพที่นี่

ในตำแหน่งนี้ Stockfish เลือกที่จะย้ายจำนำทางด้านซ้าย ( a4-a5 ) สมมติว่าฉันมีคอมพิวเตอร์ที่รันเอ็นจิ้น Stockfish ที่ความเร็ว 1,400 โหนดต่อวินาทีนั่นคือต่ำกว่า Stockfish ในเกมจริงประมาณ 50 เท่า ( ในกระดาษมันบอกว่า 70,000 kn / s) ดังนั้นฉันสามารถจำลองเกมได้ถ้าฉันวิ่งเป็นเวลา 50 นาทีในแต่ละการเคลื่อนไหว ถูก

ฉันทำการวิเคราะห์สต็อคฟิชที่ตำแหน่งด้านบนและได้ผลลัพธ์ดังต่อไปนี้:

  • Stockfish เริ่มต้นจากการแนะนำการเคลื่อนไหวบางอย่าง แต่หลังจาก 6 นาทีบนคอมพิวเตอร์ของฉัน (สอดคล้องกับ7.2 วินาทีใน Stockfish ในเกมจริง) มันแนะนำ A4-A5 เช่นเดียวกับเกมไป

นั่นเป็นเรื่องดี แต่ฉันยังคงทำงานต่อไปเป็นเวลา 50 นาทีเพื่อให้ได้การคำนวณของ Stockfish ในเกมที่ได้รับอนุญาต 1 นาที:

ความจริงที่น่าเศร้าคือฉันเชื่อว่า Stockfish สูญเสียทุกเกมเนื่องจากมีเวลา จำกัด สต็อคฟิชได้รับการค้นหาและประเมินผลเชิงลึกมากขึ้นเมื่อเวลาผ่านไปและในเกมไม่อนุญาตให้ใช้หนังสือเปิดซึ่งทำให้มันพิจารณาการเคลื่อนไหวจำนวนมากในระดับความลึกตื้น โปรดทราบว่าในการเล่นเกมa4-a5 ที่เกิดขึ้นจริงซึ่งแสดงให้เห็นว่า (สมมติว่าสามารถประเมินได้ 70 ล้านตำแหน่งต่อวินาที) Stockfish ในเกมไม่ได้ใช้เวลามากกว่า 21.6 วินาทีในการย้าย มิฉะนั้นมันจะเปลี่ยนการตัดสินใจของพวกเขาเป็นอีกสามการเคลื่อนไหวในเกมจริง เหตุผลของเรื่องนี้ยังไม่ชัดเจนสำหรับฉันเนื่องจาก Stockfish ของฉันยังใช้หน่วยความจำน้อยกว่า (ประมาณ 130MB ของ RAM เมื่อเทียบกับ 1GB ที่กล่าวถึงในเอกสารต้นฉบับโดยสมมติว่ามันเป็นตารางแฮช)


ข้อสรุป

ฮาร์ดแวร์ที่วิ่ง Stockfish อย่างที่ฉันชี้ให้เห็นนั้นดีที่สุดเร็วกว่าของฉันถึง 18 เท่า (อัปเดต: แกนเดียว) ตามการเคลื่อนไหวที่ฉันวิเคราะห์ ฉันไม่แน่ใจว่า AlphaZero สามารถใช้ฮาร์ดแวร์ดังกล่าวเพื่อฝึกอบรมเครือข่ายได้ใน 4 ชั่วโมงหรือไม่ฉันสามารถคิดได้ว่ามันต่ำเกินไปสำหรับเกมอย่างหมากรุก นอกจากนี้อัลฟ่าซีโรยังใช้เวลาในการเรียนรู้ซึ่งรวมถึงการสร้างช่องเปิดที่มั่นคง ในทางกลับกัน Stockfish นั้นเป็นคนพิการในการเปิดและมันไม่ได้ประเมิน 70 ล้านตำแหน่งต่อวินาทีเป็นเวลา 60 วินาทีในการย้ายแต่ละครั้ง

ในท้ายที่สุดทุกสิ่งที่ฉันพูดนั้นขึ้นอยู่กับสมมติฐานของฉัน แน่นอนผลลัพธ์ของ AlphaZero และเกมนั้นน่าสนใจมากสำหรับฉัน อย่างไรก็ตามฉันชอบที่จะดูเกมที่การเล่น Stockfish เหมือนกับสิ่งที่ฉันได้รับในคอมพิวเตอร์ของฉันเช่นกัน นั่นคือเวลามากขึ้นและอนุญาตให้เปิดหนังสือ นอกจากนี้ยังง่ายต่อการรับผลการวิเคราะห์สต็อคฟิชในทุกการเคลื่อนไหวและฉันหวังว่าพวกเขาจะปล่อยมันออกมาเพื่อแสดงว่ามันทำงานได้ดีเพียงใด


1
เกี่ยวกับการ จำกัด เวลารูปที่ 2 ในกระดาษ AlphaZero แสดงตรงกันข้าม: Stockfish ดีกว่าในงบประมาณที่ต่ำกว่า แต่จะแย่ลงเมื่อมีพลังงานมากขึ้น arxiv.org/pdf/1712.01815.pdf
old-ufo

1
@ old-ufo ขอบคุณที่ชี้ให้เห็น ดังที่ฉันได้กล่าวไปแล้วประสิทธิภาพของ Stockfish (และ AlphaZero) นั้นขึ้นอยู่กับฮาร์ดแวร์และเวลาที่ จำกัด สำหรับอินสแตนซ์ถ้าเราให้สต็อกฮาร์ดแวร์มากขึ้น (และ AlphaZero น้อยลง) และสร้างใหม่รูปนั้นบรรทัดของมันอาจถูกแปลงสภาพเพื่อให้มันอยู่เหนือเส้น AlphaZero เสมอ ดังนั้นฉันเดาว่าเป็นจุดที่ดีในการเปรียบเทียบฮาร์ดแวร์สำหรับทั้งสองระบบซึ่งตอบคำถามหลักด้วย
ReZzT

4

หนึ่งในผู้เขียนต้นฉบับของ Stockfish ตอบข้อร้องเรียนเฉพาะที่คุณพูดถึงที่นี่:

ในขณะเดียวกัน Chess.com ยังได้รับความคิดเห็นที่มีความยาวจากหนึ่งในผู้เขียน Stockfish ดั้งเดิมคือ Tord Romstad ซึ่งเราจะให้:

ผลการแข่งขันด้วยตนเองนั้นไม่มีความหมายมากนักเนื่องจากมีตัวเลือกการควบคุมเวลาและการตั้งค่าพารามิเตอร์ Stockfish ค่อนข้างแปลก: เกมดังกล่าวเล่นในเวลาที่กำหนด 1 นาทีต่อการเคลื่อนไหวซึ่งหมายความว่า Stockfish ไม่มีการจัดการพฤติกรรมการจัดการเวลา ( มีการใช้ความพยายามอย่างมากในการทำให้ Stockfish ระบุจุดวิกฤติในเกมและตัดสินใจว่าจะใช้เวลาพิเศษในการย้ายอย่างไรในเวลาที่กำหนดต่อการย้าย เวอร์ชันของ Stockfish ที่ใช้คืออายุหนึ่งปีกำลังเล่นกับเธรดการค้นหามากกว่าที่เคยได้รับจำนวนการทดสอบจำนวนมากและมีตารางแฮชที่เล็กเกินไปสำหรับจำนวนเธรด ฉันเชื่อว่าเปอร์เซ็นต์ของการจับฉลากจะสูงกว่ามากในการแข่งขันที่มีเงื่อนไขปกติมากกว่า

ในทางกลับกันไม่ต้องสงสัยเลยว่า AlphaZero น่าจะเล่นได้ดีกว่าถ้ามีการทำงานเพิ่มเข้ามาในโครงการ (แม้ว่า "4 ชั่วโมงแห่งการเรียนรู้" ที่กล่าวถึงในบทความจะทำให้เข้าใจผิดอย่างมากเมื่อคุณคำนึงถึงทรัพยากรฮาร์ดแวร์ขนาดใหญ่ที่ใช้ ในช่วง 4 ชั่วโมงเหล่านั้น) แต่ในทุกกรณี Stockfish vs AlphaZero เป็นการเปรียบเทียบแอปเปิ้ลกับอุรังอุตังเป็นอย่างมาก หนึ่งคือโปรแกรมหมากรุกทั่วไปที่ใช้งานบนคอมพิวเตอร์ทั่วไปส่วนอีกเครื่องใช้เทคนิคที่แตกต่างกันโดยพื้นฐานและใช้ฮาร์ดแวร์ที่ออกแบบเองซึ่งไม่สามารถซื้อได้ (และจะใช้งบประมาณของผู้ใช้ทั่วไปไม่ได้)

จากมุมมองอื่นมุมแอปเปิ้ลกับลิงอุรังอุตังเป็นสิ่งที่น่าตื่นเต้นที่สุดเกี่ยวกับเรื่องนี้: ตอนนี้เรามีสองสิ่งที่แตกต่างกันมาก (ทั้งในด้านฮาร์ดแวร์และด้านซอฟต์แวร์) เอนทิตีที่มนุษย์สร้างขึ้น มันน่าสนใจมากกว่าโปรแกรมหมากรุกอื่นที่ทำเช่นเดียวกันกับโปรแกรมหมากรุกที่มีอยู่ดีขึ้นเล็กน้อย นอกจากนี้การปรับตัวของวิธีการ AlphaZero ไปยังโดเมนใหม่เปิดโอกาสที่น่าตื่นเต้นสำหรับอนาคต

สำหรับผู้เล่นหมากรุกที่ใช้โปรแกรมหมากรุกคอมพิวเตอร์เป็นเครื่องมือการพัฒนานี้ไม่น่าจะส่งผลกระทบอย่างใหญ่หลวงอย่างน้อยในระยะสั้นเนื่องจากการขาดฮาร์ดแวร์ที่เหมาะสมสำหรับราคาที่เหมาะสม

สำหรับโปรแกรมเมอร์โปรแกรมหมากรุก - และสำหรับโปรแกรมเมอร์ในโดเมนที่น่าสนใจอื่น ๆ - การเกิดขึ้นของเทคนิคการเรียนรู้ของเครื่องจักรที่ต้องใช้ทรัพยากรฮาร์ดแวร์ขนาดใหญ่เพื่อให้มีประสิทธิภาพนั้นเป็นสิ่งที่ทำให้หมดกำลังใจเล็กน้อย ในไม่กี่ปีมันเป็นไปได้ค่อนข้างที่โปรแกรม AlphaZero เช่นหมากรุกสามารถทำงานบนคอมพิวเตอร์ทั่วไป แต่ทรัพยากรฮาร์ดแวร์ที่จำเป็นในการสร้างมันจะยังคงเกินงบประมาณของมือสมัครเล่นหรือ บริษัท ขนาดเฉลี่ย เป็นไปได้ว่าโครงการโอเพนซอร์ซที่มีเครือข่ายการกระจายขนาดใหญ่ของคอมพิวเตอร์ที่ดำเนินการโดยอาสาสมัครสามารถทำงานได้ แต่เครื่องมือหมากรุกที่ไม่ซ้ำกันหลายร้อยวัน

ที่มา: https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author


2

การใช้ฮาร์ดแวร์ที่เทียบเท่าจะต้องใช้ถ้าเป้าหมายสุดท้ายของ Google คือสร้างเครื่องมือหมากรุกที่เหนือกว่า แต่แบบฝึกหัดนี้ไม่เกี่ยวกับหมากรุก หมากรุกเป็นวิธีที่สะดวกในการแสดงความสามารถของ AI ในการเรียนรู้งานที่ซับซ้อนตั้งแต่เริ่มต้น หากมันสามารถทำงานได้ดีกับการกำหนดค่า Stockfish ที่สมเหตุสมผลบางอย่างมันจะทำเครื่องหมายในกล่อง

ฉันคาดการณ์ว่าทีม Google จะไม่ใช้ความพยายามกับหมากรุกมากขึ้น แต่พวกเขาจะไปยังปัญหาอื่น ๆ ที่ AI ไม่สามารถทำได้


ฉันได้ +1 เพราะฉันมีความรู้สึกเดียวกัน
SmallChess

ฟังดูน่าจะเป็นไปได้ แต่ฉันสงสัยว่าพวกเขาจะตีพิมพ์มันถ้า Alphazero สูญเสียไปเพียงแค่เล็กน้อย
user1583209

@ user1583209 พวกเขาอาจวิ่งหลายครั้งเพื่อหาจำนวนเวลาการเรียนรู้ขั้นต่ำที่ต้องใช้เพื่อทำลายสต็อคฟิช จากนั้นพวกเขาก็ดำเนินการขั้นสุดท้ายและเผยแพร่ผลลัพธ์เหล่านั้น
T Scherer

1

เยี่ยมชม Talkchess Forum เพื่อทราบข้อมูลเพิ่มเติมคุณจะพบโปรแกรมเมอร์ 3,000 คน ทั้งหมดนี้เป็นการหลอกลวง Alpha เล่นบนฮาร์ดแวร์ที่ใหญ่กว่า 30 เท่าของ SF และ 4TPU เทียบกับ 64 cores 4TPUs ประมาณ 1,000 คอร์หรือมากกว่านั้น อัลฟ่ามีหนังสือจำลองเปิดทำการฝึกอบรมในเกมที่ชนะของจีเอ็มนับไม่ถ้วน เอสเอฟมีแฮชน้อยมาก TC ได้รับการแก้ไขที่ 1 นาทีต่อการย้ายซึ่งเป็นอันตรายต่อ SF อีกครั้งซึ่งมีการจัดการเวลาขั้นสูง TPUs ขาดความไร้ประสิทธิภาพของ SMP ที่มีแกนเพิ่มเติมดังนั้นข้อดีของฮาร์ดแวร์จึงยิ่งใหญ่กว่า และอื่น ๆ ดังนั้นโดยทั่วไปนี่เป็นเพียงการแสดงความสามารถในการประชาสัมพันธ์ขนาดใหญ่ในส่วนของ Google ปัจจุบันอัลฟ่าอยู่ที่ประมาณ 2800 ในแกนเดี่ยวดังนั้น 400 elos ที่ต่ำกว่า SF และจะไม่ก้าวหน้ามากในอนาคตเช่นนี้จากนี้ไปจะต้องมีการประเมินขั้นสูงซึ่งจะไม่สามารถค้นพบได้ เกี่ยวกับปัญหา 4 ชั่วโมง, LOL, นี่คือ 48 ชั่วโมงที่ผ่านมาดังนั้นตอนนี้อัลฟ่าอยู่ที่ 5,000 elo? มาเลย


5
คุณดูเหมือนจะเชื่อว่า AlphaZero ทำสิ่งเดียวกันกับ Stockfish เร็วกว่า 1,000 เท่าเพราะใช้ฮาร์ดแวร์ที่แข็งแกร่งกว่า 1,000 เท่า นี่ไม่เป็นความจริงเลย มันใช้วิธีการที่แตกต่างกันมากและวิธีการนั้นเป็นทรัพยากรที่เข้มข้นมาก ในความเป็นจริงระหว่างการแข่งขัน AlphaZero ประเมิน 80,000 ตำแหน่งต่อวินาทีในขณะที่ Stockfish กำลังตอกบัตรที่ 70 ล้านตำแหน่งต่อวินาที ตอนนี้บอกฉันว่า AlphaZero ชนะเพราะฮาร์ดแวร์ที่แข็งแกร่งกว่า แน่นอนว่าใน 64 CPU มันจะช้ากว่าและใครจะรู้ว่ามันจะเล่นอย่างไร แต่ประเด็นคือ AlphaZero ทำได้ดีกว่าแม้ว่าจะมีราคาสูงกว่า
IA Petr Harasimovic

3
ฮาร์ดแวร์ของ SF มีค่าใช้จ่ายน้อยกว่า $ 10k, Alpha หนึ่งมากกว่า $ 250k วาดข้อสรุปด้วยตัวเอง Nps ไม่มีความหมายและโปรแกรมเมอร์หมากรุกทุกคนรู้ดี คุณสามารถทำเทคนิคทุกชนิดเพื่อให้ nps ลดลง แต่นั่นไม่ได้หมายความว่าคุณจะเล่นได้ดีขึ้น ฉันต้องการที่จะเห็นมันใช้วิธีการนั้นในฮาร์ดแวร์ SF และ SF นั้นบนฮาร์ดแวร์ Alpha เดาผลหรือไม่ +85 -0 = 15 สำหรับ SF หากพวกเขายอดเยี่ยมมากปล่อยให้พวกเขาเผยแพร่รหัสของพวกเขา
Lyudmil Tsvetkov

3
"อัลฟ่าจำลองหนังสือเปิดตัวฝึกอบรมเกมที่ได้รับรางวัลจีเอ็มนับไม่ถ้วน" หนังสือจำลองเปิดใช่ แต่มันได้รับการฝึกฝนเกี่ยวกับเกม GM? คุณมีแหล่งที่มาสำหรับสิ่งนี้หรือไม่? ความเข้าใจของฉันคืออัลฟ่าได้รับการบู๊ตทั้งหมด
Akavall

0

สต็อคฟิชนั้นมีข้อ จำกัด ต่อซีพียูดังนั้นจึงไม่มีทางที่จะขยายไปถึงระดับที่ GPU สามารถทำได้

การคำนวณ Gor matrix การปรับขนาด GPU ด้วย n ในขณะที่ CPU ที่มี n 3แกนเทนเซอร์เหล่านี้ได้รับการปรับแต่งเพิ่มเติมเพื่อให้มีประสิทธิภาพที่ดียิ่งขึ้นเมื่อคุณปรับขนาด


-2

ย่อหน้าแรกรายละเอียดเพิ่มเติมสั้นและเรียบง่ายคำตอบวรรคสองความคิดเห็นของฉันเกี่ยวกับสถานการณ์

ด้วย AlphaZero ฮาร์ดแวร์จะมีผลต่อความแข็งแรงของการเล่น 0 อาจใช้เวลานานกว่า แต่ไม่ใช่เพราะมันกำลังคิดอยู่ มันเป็นเครือข่ายประสาทซึ่งหมายความว่าคุณป้อนข้อมูลในเวกเตอร์ (ตารางคอลัมน์เดียว) มันทำการคำนวณทางคณิตศาสตร์อย่างง่ายผ่านเทนเซอร์ยักษ์ (ตาราง 3 มิติหรือมากกว่า) จากนั้นจะแยกคำตอบออกมา สต็อคฟิชต้องการเวลาที่ดีเพราะมันจะตรวจสอบตำแหน่งที่เป็นไปได้เพื่อดูว่าการเคลื่อนไหวนั้นมีประโยชน์หรือไม่ดังนั้นยิ่งมันตรวจสอบปัญหามากเท่าใดก็ยิ่งสามารถตรวจสอบตำแหน่งได้มากขึ้นเท่านั้น

ไม่มีการตั้งค่าฮาร์ดแวร์ที่เปรียบเทียบได้จริงๆ เนื่องจากพวกเขามีความต้องการที่แตกต่างกัน Stockfish จึงต้องวิเคราะห์ตำแหน่งที่มากขึ้นในขณะที่ AlphaZero เพียงแค่ต้องการที่จะย้าย และผู้คนก็อารมณ์เสียเพราะคอมพิวเตอร์ของ AlphaZero มีประสิทธิภาพทางเทคนิคมากกว่าและพวกเขาคิดว่าพวกเขาควรจะเท่าเทียมกันในเรื่องนั้น แต่ AlphaZero ไม่ต้องการซูเปอร์คอมพิวเตอร์ตัวนั้นหลังจากการฝึก

ในความคิดของฉันมันไม่สำคัญว่าสิ่งที่พวกเขาให้ทั้งสองข้างเว้นแต่ว่า Stockfish มีเวลาไม่สมเหตุสมผลมันอาจจะผูกกับเกมอีกสองสามเกม แต่โดยทั่วไปแล้วจะมีผลกระทบที่คล้ายกันเกิดขึ้น นี่คือเหตุผลที่ฉันคิดว่าสิ่งนี้ Stockfish เริ่มประเมินด้วยชิ้นส่วนและค่านิยมของพวกเขาในขณะที่ Alpha เล่น (อาจ) เกมนับล้านเพื่อตระหนักถึงสิ่งที่สำคัญเชิงกลยุทธ์ ซึ่งเป็นเหตุผลที่อัลฟ่า sacs มากกว่า Stockfish จะเคย แต่ได้รับประโยชน์ตำแหน่งใหญ่


นั่นเป็นเพียงความผิด AlphaZero ทำการค้นหาต้นไม้ ฮาร์ดแวร์เพิ่มเติมทำให้แข็งแกร่งขึ้น และต้องใช้ฮาร์ดแวร์มากมายในการเล่นที่ดีกว่า stockfish
BlindKungFuMaster

ไม่มีอะไรในโพสต์นี้ถูกต้อง ...
SmallChess

ระบบนี้ใช้โครงข่ายประสาท 3 เส้นและการค้นหาต้นไม้มอนโรคาร์โลบางส่วนดังนั้นคุณจึงถูกต้องเกี่ยวกับการค้นหาต้นไม้ ในระหว่างการเล่นจะใช้หลักการของโครงข่ายประสาทเทียม 2 ข้อที่พัฒนาขึ้นในช่วงต้นของคุณค่าและนโยบาย Go เป็นเกมที่ไม่สามารถทำได้ด้วยพลังการคำนวณเพราะมันซับซ้อนกว่าในเชิงดาราศาสตร์มากกว่าหมากรุก ดังนั้นถ้าฉันเชื่อว่ามันต้องการพลังในการคำนวณมากกว่าอัลกอริทึมแรงเดรัจฉาน หรือพลาดแจ้ง โครงข่ายประสาทที่สามถูกใช้เพื่อพยายามทำให้กระบวนการเรียนรู้ดีขึ้นโดยการเดาการเปลี่ยนแปลงการขยายพันธุ์ด้านหลัง พลัง Alphazeros อยู่ในตาข่ายไม่ใช่ mcts
Ezecal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.