Alpha Zero เป็น“ มนุษย์มากกว่า” อย่างไร?


35

ฉันมีคำถามที่ไร้เดียงสาเกี่ยวกับ AlphaZero ฉันได้เห็นมันอธิบายว่าเล่นในลักษณะ "มนุษย์มากขึ้น" กว่าคอมพิวเตอร์เครื่องอื่น ๆ แต่ไม่ว่ามันจะทำอะไรก็จะได้คะแนน ELO ประมาณ 100 คะแนนโดยการทำ คาสปารอฟและอีกหลายคนอ้างว่ามนุษย์ที่แข็งแกร่งในความร่วมมือกับคอมพิวเตอร์จะเอาชนะคอมพิวเตอร์ที่แข็งแกร่ง (อาจจะประมาณ 100 ELO ??) ดังนั้นคำถามที่ชัดเจนคือ AlphaZero จะเปรียบเทียบกับชุด "เซ็นทอร์" ได้อย่างไร

สิ่งที่ฉันสังเกตเห็นคือคอมพิวเตอร์ส่วนใหญ่เล่นเกมเปิดกว้างที่เพิ่มความคล่องตัวของตัวเอง แต่ดูเหมือนว่า AlphaZero จะมีความกังวลมากที่จะ จำกัด การเคลื่อนไหวของฝ่ายตรงข้าม ในผู้เล่นที่เป็นมนุษย์ฉันจะอธิบายสิ่งนี้ว่าเป็นเรื่องของสไตล์ไม่ใช่มนุษย์มากหรือน้อย


4
สำหรับสิ่งที่มีค่าการเรียกร้องจากคาสปารอฟนั้นเก่ามาก มนุษย์และคอมพิวเตอร์ในการทำงานร่วมกัน ("หมากรุกขั้นสูง" หรือ "หมากรุกเซนทอร์") ไม่สามารถทำได้ดีกว่าคอมพิวเตอร์ด้วยตัวเอง - คอมพิวเตอร์ดีเกินไป - Stockfish 8 ได้รับการจัดอันดับที่ไหนสักแห่งรอบ ~ 3400 IIRC เมื่อเทียบกับ ~ 2825 สำหรับ Magnus Carlsen .
Stephen Touset

8
@StephenTouset เพียงแค่ระมัดระวังที่จะต้องระมัดระวังกับการจัดอันดับ Elo สำหรับเครื่องยนต์ สิ่งที่ฉันเห็นบ่อยที่สุดคือจากการเปรียบเทียบระหว่างเครื่องยนต์กับเครื่องยนต์ที่ยังไม่ได้มาตรฐานกับมนุษย์จริง อ้างถึงWikipediaที่เกี่ยวข้อง: "การจัดอันดับเหล่านี้ [... ] ไม่มีความเกี่ยวข้องโดยตรงกับการจัดอันดับ FIDE Elo หรือการจัดอันดับหมากรุกสหพันธรัฐอื่น ๆ ของผู้เล่นมนุษย์ยกเว้นผู้ชายบางคนกับเกมเครื่องที่ SSDF จัดมาหลายปีแล้ว (ซึ่งอยู่ไกล จากระดับของวันนี้) ไม่มีการสอบเทียบระหว่างรายการการจัดเรตกับพูลโปรแกรมเล่น "
mbrig

1
ฉันคิดว่ามนุษย์ทำได้ แต่ไม่สามารถควบคุมเวลามาตรฐานได้ เกมการติดต่อที่ยาวควรจะโอเค
SmallChess

4
เอ่อ AlphaZero เป็นผลิตภัณฑ์ของ Google จึงไม่น่าแปลกใจที่คุณจะได้ยินการโฆษณาชวนเชื่อมากกว่าผลิตภัณฑ์ของ บริษัท อื่น ฉันเดาว่าพวกเขามีข้อตกลงที่ดีกว่ากับผู้แต่งและผู้เผยแพร่ เอาไปใส่กับกองเกลือเหมือนอะไรเกี่ยวกับ Waymo
coderworks

คำตอบ:


33

หน้า 5 ในกระดาษมีคำตอบของคุณ:

... AlphaZero ชดเชยจำนวนการประเมินที่ต่ำกว่าโดยใช้โครงข่ายใยประสาทแบบลึกของมันเพื่อค่าใช้จ่ายมากขึ้นในการเลือกรูปแบบที่มีแนวโน้มมากที่สุด - เนื้อหาเป็นวิธีที่ "เหมือนมนุษย์" มากกว่าหมากรุก ...

"selectively" เป็นคำสำคัญ นั่นหมายความว่าอย่างไร? ลองใช้ตำแหน่งต่อไปนี้สำหรับตัวอย่างของเรา:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

การเคลื่อนไหว

เกมนี้เป็นเกมล่าสุดที่ Caruana ชนะในปี 2017 London Chess Classic อธิการสีขาวกำลังถูกโจมตีและคุณรู้ว่าคุณต้องย้ายมัน แต่ที่ไหน

ความเป็นไปได้ (ไม่สูญเสียชิ้นส่วน):

  • BH4
  • Be3
  • BD2
  • BC1

Caruana กำลังคิดอะไรอยู่

ฉันรู้สึกว่าฉันจะแพ้ในบางจุด แต่เมื่อฉันเห็น 25.Bc1 ฉันก็เริ่มที่จะได้รับในเชิงบวกมากขึ้นเกี่ยวกับโอกาสของฉัน ฉันรู้ว่าตำแหน่งของฉันไม่ดี แต่อย่างน้อยฉันก็มีแผนและนั่นคือทั้งหมดที่ฉันต้องการเพื่อความมั่นใจในตำแหน่งนี้ เมื่อฉันเห็น b3 นี้ c4 ตำแหน่งนั้นถูกทำให้เป็นขอบสองเท่าและฉันมีโอกาสบ้าง

นี่คือความคิดของมนุษย์และ "การเคลื่อนไหวของมนุษย์" Caruana ไม่ได้พิจารณา Bh4, Be3 และ Bd2 เพราะพวกเขา "ดู" ไม่ดี เขาได้มุ่งเน้นเท่านั้นและเฉพาะในการเคลื่อนไหว Bc1

มนุษย์เล่นหมากรุกอย่างพิถีพิถันเราละทิ้งการเคลื่อนไหวที่ไม่สมควรเพราะเราไม่มีเวลาตรวจสอบความเป็นไปได้ทั้งหมดเท่า ๆ กัน

  • เราทิ้ง Bh4 เพราะปล่อยความตึงเครียดในการจำนำ h6
  • เราละทิ้ง Be3 ไปเพราะมันปิดกั้น rooks สีขาวสองอันบนอันดับสาม
  • เราทิ้ง Bd2 เพราะมันปิดกั้นราชินีสีขาวไปทางด้านกษัตริย์

นั่นคือสิ่งที่ AlphaZero พยายามอ้างสิทธิ์ในเอกสาร พวกเขาอ้างว่าอัลกอริทึมของพวกเขาแม้ว่าช้ากว่าสต็อคฟิชสามารถเลือกการเคลื่อนไหวที่ดีกว่าสต็อคฟิชในการค้นหา ในขณะที่สต็อคฟิชนั้นเร็วกว่า แต่ก็เป็นการเสียเวลาในการเคลื่อนที่ AlphaZero ช้ากว่า แต่ก็แม่นยำกว่า (เหมือนที่ Caruana กำลังทำ)

ตัวอย่างเช่น AlphaZero อาจใช้ทรัพยากร 80% ใน Bc1 และ 20% สำหรับการย้ายอธิการอื่น ๆ สต็อคฟิชอาจให้ 25% ต่อการเคลื่อนไหว (Bh4, Be3, Bd2, Bc1)


1
ดังนั้นโดยทั่วไปสไตล์การเล่นไม่จำเป็นต้องเป็นมนุษย์มากกว่า แต่วิธีการในการค้นหาสิ่งต่อไปที่จะเล่นคือ อย่างน้อยตามกระดาษ นอกจากนี้ฉันไม่สามารถแก้ไขได้ แต่ข้อความอ้างอิงของ Caruana ของคุณมีตัวพิมพ์ใหญ่สวย: "เมื่อฉันเห็น b3 ของเขา c4" ควรเป็น "เมื่อฉันเห็น b3 นี้ c4"
Arthur

@Aththur ตามกระดาษ (และเฉพาะกระดาษ) สไตล์การเล่นไม่จำเป็นต้องเป็นมนุษย์มากขึ้น ฉันไม่ได้บอกว่าไม่มี แต่ไม่มีอะไรในกระดาษบอกว่า
SmallChess

อัลกอริธึม Monte Carlo มีพารามิเตอร์เพื่อควบคุมการสำรวจ x exploit ดังนั้นการย้ายที่อัลฟาเบต้าจะไม่พิจารณา (เนื่องจากเวลา) อัลฟ่าเป็นศูนย์
เฟอร์นันโด

@Fernando คุณช่วยอธิบายสิ่งที่คุณตอบไปได้ไหม? ฉันต่อสู้เพื่อดูจุด นอกจากนี้ฉันยังสับสนด้วย 'ไม่ต้องพิจารณาเนื่องจากเวลา' การค้นหาอัลฟ่าเบต้าไม่สนใจสาขาที่แย่กว่าสาขาอื่น ๆ ที่สำรวจอยู่แล้ว ฉันไม่เห็นว่าสิ่งนี้เกี่ยวข้องกับเวลา
IA Petr Harasimovic

โดยทั่วไปหากบรรทัดเป็น +0.32 และอีกเส้นคือ +0.13, AlphaZero จะใช้เวลากับอดีต
Jossie Calderon

16

เอนจิ้นที่แข็งแกร่งส่วนใหญ่เน้นที่การมองลึกมากโดยใช้ฟังก์ชั่นประเมินผิวเผิน ในกระดาษ AlphaZero พวกเขาบอกว่าสต็อคฟิชมองดู 70 ล้านตำแหน่งต่อวินาที

คนดูตำแหน่งน้อยมากเมื่อเทียบกับเครื่องยนต์ แต่พวกเขามีความรู้สึกที่ดีกว่าที่ดีกว่าในตำแหน่งที่กำหนด

AlphaZero ดูเพียง 80,000 ตำแหน่งต่อวินาทีดังนั้นมันจึงใช้เวลามากขึ้นในฟังก์ชั่นการประเมินผล

นั่นคือความรู้สึกที่พวกเขาหมายถึง "มนุษย์มากขึ้นเช่น" ไม่มีอะไรเพิ่มเติม


11

ดูเหมือนว่า AlphaZero จะเล่นเหมือน "เซนทอร์" ปกติ -> correspodence GM พร้อมความช่วยเหลือด้านเครื่องยนต์

ในฐานะที่เป็นเอฟเอ็มฉันจะได้รับความเพลิดเพลินในการเล่น AlphaZero กับเอ็นจิ้นปกติมากขึ้น

การเปรียบเทียบอย่างหนึ่งจะเป็นอย่างที่เล่นอย่าง Karpov ด้วยกลยุทธ์ที่สมบูรณ์แบบ (เกมที่ 9 AlphaZero เล่นเป็นชิ้น ๆ สำหรับ 15move ซึ่งเป็น Tal มากเช่น)

มันไม่ได้เป็นเพียงแค่รูปแบบเท่านั้น AlphaZero ยังให้ความรู้สึกถึงความเข้าใจในตำแหน่งที่ดีกว่า Stockfish

AlphaZero ยังไม่ได้รับผลกระทบจาก Horizon Effect ที่เอ็นจิ้นหมากรุกทั้งหมดได้รับความเดือดร้อนจากตอนนี้ ครั้งแล้วครั้งเล่ามันสามารถประเมินตำแหน่งที่ถูกต้องมากกว่าที่สต็อคฟิชทำ

นี่คือตัวอย่าง:

AlphaZero - Stockfish, Alphazero vs Stockfish: AlphaZero - Stockfish, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13 cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Q6 25. RC7 Rc8 26. Rxc8 + Bxc8 27. RC6 Bb7 28. Rc2 Kd7 29. Ng5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 RG8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd7 36. RC1 Kd8 37 Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​ax5 6 Kxb6 47. Ra6 + Kb7 48. Kc3 Rd8 49. Ra2 Rc8 + 50 Kd6 Be8 51 Ke7 g5 52. hxg5 1-0

AlphaZero รับบทเป็นกษัตริย์ถึงจุดที่ 16 Kxd2! ในเกมกลางตัดสินอย่างถูกต้องว่าแบล็กจะไม่สามารถใช้ประโยชน์จากมันได้

สามารถประเมินชิ้นส่วนที่เสียสละได้อย่างถูกต้อง 30. Bxg6! ในขณะที่เครื่องยนต์ทั่วไปไม่สามารถมองเห็นได้ว่ามันหายไปเพราะการเคลื่อนไหว

  1. f5 ก็ค่อนข้างดีเช่นกัน

มีตัวอย่างอื่น ๆ เช่นแลกเปลี่ยนการเสียสละในเกม 3


8

มันง่ายที่จะกระโดดขึ้นไปบน bandwagon ว่าการเล่นของ Alpha-Zero นั้นเป็นมนุษย์มากกว่าเกมหมากรุกคอมพิวเตอร์ก่อนหน้านี้เนื่องจากมันจะกระโดดขึ้นบนเกวียนที่ตรงกันข้ามและพูดว่าการเล่นของ Alpha-Zero นั้นเป็น 'เอเลี่ยน' ทั้งหมด ไม่ชัดเจนว่าการเล่นของอัลฟ่าศูนย์นั้นเป็น 'มนุษย์มากขึ้น' โดยเฉพาะอย่างยิ่งเนื่องจากแนวโน้มของมนุษย์ที่มีต่อมนุษย์มนุษย์

หมากรุกในการต่อสู้ของจิตใจ (มนุษย์)

แต่ในหมากรุกแนวโน้มนี้เป็นจริงหรือไม่? แมกนัสคาร์ลเซ่นเคยพูดเกี่ยวกับวิธีที่คอมพิวเตอร์ 'ดั้งเดิม' โดยทั่วไปขาดความคิดสร้างสรรค์ของมนุษย์ที่พูดว่า:

“ หมากรุกคือทั้งหมดที่เกี่ยวกับการต่อสู้ระหว่างจิตใจมนุษย์นั่นคือสิ่งที่ทำให้มันน่าตื่นเต้นหมากรุกคอมพิวเตอร์เป็นเครื่องจักรกลแห้งและอ่อนโยนการเคลื่อนไหวนั้นแข็งแกร่งมากแน่นอน แต่ไม่มีสไตล์ถ้าคุณลองเล่นกับคอมพิวเตอร์หมากรุก ไม่เพียง แต่คุณจะสูญเสียความมั่นใจสูงมาก แต่คุณจะเบื่อในกระบวนการ

แมกนัสคาร์ลเซ่นไม่เห็นหลักฐานการเล่นของมนุษย์ในคอมพิวเตอร์หมากรุกแบบดั้งเดิม ดังนั้นให้ตรวจสอบว่าความสำเร็จล่าสุดของอัลฟ่าซีโร่ได้ยกเลิกมุมมองนี้และย้ายเราไปสู่บางสิ่งที่ชวนให้นึกถึงตัวเรามากขึ้น

ถ้าโดย 'เหมือนมนุษย์' คุณหมายถึงการเล่น 'พฤติกรรมการจัดแสดงมีแนวโน้มที่จะดึงดูดความรู้สึกของมนุษย์ในรูปแบบของอัลฟ่าศูนย์' ลักษณะของอัลฟ่าศูนย์ดูเหมือนมนุษย์มากขึ้นหรือไม่? เราจะทดสอบมนุษย์สายตาสั้นที่เป็นอัตนัยนี้เพื่อฉายภาพสิ่งที่ไม่ใช่มนุษย์ได้อย่างไร? ให้ถาม - อัลกอริทึม 'เลือกที่ดีขึ้น' หรือแสดง 'ทางเลือกที่สร้างสรรค์มากขึ้นของมนุษย์' ในสไตล์การเล่น

ผู้สร้างอัลกอริทึมของแสดงให้เห็นว่าแตกต่างจาก Stockfish ซึ่งใช้วิธีการค้นหา Alpha-Beta, Alpha-Zero พนักงานค้นหาต้นไม้มอนติคาร์โล (MCTS) อัลกอริทึมที่รับเป็น input พารามิเตอร์ถ่วงน้ำหนักθสร้างขึ้นจากผลก่อนหน้า ~ หน้า 3. หมากรุก Mastering และ Shogi โดยตัวเองเล่นกับทั่วไปเสริมสร้างการเรียนรู้ขั้นตอนวิธีการ )

ดังนั้นอัลกอริทึมไม่ได้แสดงตัวเลือกเลย มันมีส่วนร่วมในการค้นหา Monty-carlo แบบสุ่ม แต่มีความน่าจะเป็นที่ซึ่งเส้นทางการค้นหาที่เป็นไปได้ที่มีอยู่นั้นมีอคติมากขึ้นจากผลลัพธ์ก่อนหน้า Alpha-zero เลือกที่จะปรับสไตล์การเล่นด้วยวิธีนี้หรือไม่หรือเป็นทางเลือกของโปรแกรมเมอร์

Alpha-zero มีการเคลื่อนไหวที่เป็นไปได้ทั้งหมดอยู่เสมอหรือไม่หรือมีการเคลื่อนไหวบางอย่างที่มีอคติในขั้นตอนวิธีที่เลียนแบบประสบการณ์ซึ่งมนุษย์สามารถตีความได้โดยมนุษย์?

ในขั้นต้นมันมีการเคลื่อนไหวทั้งหมดที่มีอยู่เพื่อให้ 'สไตล์' เป็นแบบสุ่มทั้งหมด อย่างไรก็ตามเนื่องจากการค้นหามีการ จำกัด มากขึ้นและเหมาะสมที่สุดจากความสำเร็จหรือความล้มเหลวก่อนหน้านี้สไตล์ของมันก็เปลี่ยนไปสู่โหมดที่โปรแกรมเมอร์ได้ใส่กุญแจมือไว้ นี่เป็น 'มนุษย์มากกว่า' ใช่ไหม? เปรียบเทียบสิ่งนี้กับ Magnus Carlesen ที่บางครั้งจะเลือกการเคลื่อนไหวที่ดีที่สุดน้อยลงเพราะพวกเขามีความคิดสร้างสรรค์มากขึ้น :

Magnus Carlsen:“ ฉันซาบซึ้งในการสร้างสิ่งที่ไม่เหมือนใคร”

หมากรุกเป็นการต่อสู้ของจิตใจ (มนุษย์ต่างดาว)

มนุษย์สามารถเลือกเกณฑ์ที่ขับเคลื่อนสไตล์การเล่นของตนเอง (เช่นฉันมักจะเลือกแรงกระตุ้นและข้อผิดพลาดในสไตล์ของตัวเอง) เล่นเห็นหลาย Alpha-ศูนย์ทั้งในหมากรุกและไปเป็นเด็ดคนต่างด้าว Nick Hynes นักเรียนระดับปริญญาตรีที่ห้องปฏิบัติการวิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ตั้งข้อสังเกต:

“ สิ่งที่เราเห็นที่นี่คือแบบจำลองที่ปราศจากอคติของมนุษย์และการอนุมานล่วงหน้า: มันสามารถเรียนรู้ทุกสิ่งที่มันกำหนดว่าเหมาะสมที่สุดซึ่งแน่นอนว่าอาจเหมาะสมกว่าที่แนวคิดของเราก็เหมือนกัน มันเหมือนอารยธรรมต่างดาวที่คิดค้นคณิตศาสตร์ของตัวเองซึ่งอนุญาตให้ทำสิ่งต่าง ๆ เช่นการเดินทางข้ามเวลา ... ”

ในทำนองเดียวกัน GM Peter Heine Nielsen บอก Chess.com :

“ หลังจากอ่านกระดาษ แต่โดยเฉพาะอย่างยิ่งการดูเกมที่ฉันคิดว่าดีฉันมักจะสงสัยว่ามันจะเป็นอย่างไรถ้าสายพันธุ์ที่เหนือกว่าลงบนพื้นโลกและแสดงให้เราเห็นว่าพวกเขาเล่นหมากรุกฉันรู้สึกตอนนี้ฉันรู้”

ดูเหมือนว่าส่วนใหญ่จะตอบสนองต่อรูปแบบการเล่นของ Alpha-Zero ในรูปแบบ 'การเล่นของมนุษย์ต่างดาว' และไม่ใช่ว่า 'มนุษย์มากกว่า

ดังนั้นจึงมีเหตุผลที่ไม่เห็นด้วยกับคำตอบข้างต้นที่พูดว่า 'ใช่'


3
คำตอบของคุณค่อนข้างทำให้เข้าใจผิดและไม่ถูกต้องในสถานที่ การใช้ MCTS นั้นไม่ได้เป็นข้อแตกต่างที่สำคัญนี่ไม่ใช่เหตุผลว่าทำไมมันถึงชนะ Stockfish พวกเขาสามารถใช้การค้นหาอัลฟ่าเบต้าได้เช่นกันพวกเขารู้สึกว่า MCTS ทำงานได้ดีขึ้นสำหรับพวกเขา องค์ประกอบหลักของอัลกอริทึม AlphaZero เป็นเครือข่ายประสาทเทียมที่ลึกซึ้งมากการเรียนรู้การเสริมแรง (เช่นเครือข่ายจะถูกปรับโดยการเล่นด้วยตนเอง) และการค้นหาต้นไม้ (ซึ่งเกิดขึ้นกับ MCTS แต่ไม่จำเป็น) ไม่มีอะไรในแบบฉบับในการพูดว่า "สไตล์ของมันเปลี่ยนไปสู่โหมดที่โปรแกรมเมอร์ได้ใส่กุญแจมือไว้" ไม่ถูกต้อง
IA Petr Harasimovic

“ หมากรุกคือทั้งหมดที่เกี่ยวกับการต่อสู้ระหว่างจิตใจของมนุษย์นั่นคือสิ่งที่ทำให้มันน่าตื่นเต้นหมากรุกคอมพิวเตอร์เป็นเครื่องจักรกลแห้งและสุภาพการเคลื่อนไหวนั้นแข็งแกร่งมากแน่นอน แต่ไม่มีสไตล์” มีใครทำแบบทดสอบทัวริงที่ดำเนินการอย่างดีกับ GM จำนวนหนึ่งที่เล่นคู่ต่อสู้ที่ไม่ระบุชื่อซึ่งสามารถเป็นได้ทั้งมนุษย์หรือคอมพิวเตอร์?

หากคุณเชื่อว่าประเด็นของฉันคือ MCTS คือความแตกต่างที่สำคัญ (ระหว่าง Alpha-zero และ Stockfish) - คุณไม่มีจุดของฉัน ประเด็นของฉันคือมนุษย์ไม่ใช่อัลกอริทึมตัดสินใจสไตล์การเล่นของอัลฟ่า - ศูนย์ตัดสินใจการตัดสินใจของอัลฟ่า - ศูนย์ ประเด็นของฉันคือตัวเลือกที่เป็นมนุษย์เหล่านี้ดูเหมือนจะบอกถึงสไตล์การเล่นที่ทำให้ GM และมือสมัครเล่นเหมือนกันไม่ใช่มนุษย์อย่างแน่นอน
user34445

Dr Eval ลองดูที่ - cs.stackexchange.com/questions/68249/…
user34445

1
@ user34445 ที่จริงฉันคิดว่าย่อหน้านั้นไม่มีจุดเลยฉันแค่พยายามหาเหตุผลเข้าข้างตนเอง มนุษย์ไม่ได้ตัดสินใจสไตล์การเล่นของ AlphaZero พวกเขาตัดสินใจสไตล์การเรียนรู้ แน่นอนว่าพวกเขาไม่ได้กำหนดมุมมองว่าจะเล่นหมากรุกอย่างไร
IA Petr Harasimovic

5

นี่เป็นเวลาที่น่าสนใจอย่างไม่น่าเชื่อที่จะมีชีวิตอยู่

คอมพิวเตอร์หมากรุกที่เริ่มต้นจากปี 1970 เป็นอัลกอริธึมการค้นหาแบบย่อส่วนโดยใช้การตัดแบบอัลฟาเบต้า โปรแกรมเหล่านี้มีความแข็งแกร่งและแข็งแรงขึ้นเนื่องจากความก้าวหน้าของความเร็วคอมพิวเตอร์และความขนานและเนื่องจากการปรับปรุงฟังก์ชั่น eval heuristic ที่ใช้ในการตัดกิ่งและเลือกโหนดใบ แต่ผู้คนสังเกตเห็นมานานแล้วว่าการเล่นคอมพิวเตอร์ที่เป็นรูปธรรมและน่าเบื่อเป็นอย่างไรและหลาย ๆ คน (รวมตัวเอง) คิดว่ามันเป็นไปไม่ได้ที่จะเข้ารหัสสัญชาตญาณ "มนุษย์" ในซอฟต์แวร์

แต่คุณเคยเห็นเกมเหล่านี้หรือไม่

AlphaZero แสดงการเล่นที่สวยงามอย่างไม่น่าเชื่อรวมถึงตัวอย่างการเสียสละวัสดุเพื่อประโยชน์ในระยะยาว นี่เป็นเกมที่ชวนให้นึกถึงเกมที่สวยงามที่สุดจากมนุษย์ แต่มีความแม่นยำทางเทคนิคที่เหนือชั้น นี่คือตัวอย่างแรกที่ผมเคยเห็นในชีวิตของฉันของสิ่งที่คอมพิวเตอร์สร้างขึ้นและยังมีความงามลึก


การเรียกร้อง Centaur:

ฉันเคยได้ยินแกร์รีพูดหลายครั้ง แต่มันก็ไม่จริง หรืออย่างน้อยก็ไม่เป็นความจริงอีกต่อไปเมื่อมี AlphaZero บนฉาก

ลองจินตนาการถึงสิ่งนี้: มีชิ้นส่วนที่มีการสืบต่อเนื่องที่เกี่ยวข้อง 10,000 รายการโดยที่ 5,000 ของพวกเขาเป็นยุทธวิธีล้วนๆ (ส่วนใหญ่ไม่เกี่ยวข้องกัน) และอีก 5,000 ที่เป็นตำแหน่งส่วนใหญ่ มนุษย์จะลอดผ่านการเปลี่ยนแปลงเหล่านี้ทั้งหมดโดยไม่ทำผิดได้อย่างไร? หาก AlphaZero สามารถมองเห็นการเคลื่อนไหวที่สร้างสรรค์สูงเหล่านี้มนุษย์จะมีส่วนช่วยอะไรได้บ้าง?


The Last Frontier:

มีสถานที่เดียวที่เหลืออยู่ที่การคำนวณสัตว์เดรัจฉานจะยังคงเอาชนะอวนประสาทลึก: endgames ไม่มีจำนวนของสัญชาตญาณที่จะเอาชนะฐานตาราง แต่ตอนจบที่ต้องการฐานข้อมูล (เพราะโครงสร้างการค้นหาไม่สามารถเจาะลึกพอที่จะคำนวณการเคลื่อนที่ที่ถูกต้อง) นั้นหายากมาก และคุณสามารถเสียบฐานข้อมูลลงใน AlphaZero ได้ แต่นั่นจะทำลายความบริสุทธิ์ของเครื่องยนต์ "ที่สอนด้วยตนเอง" ใช่ไหม?


3

เนื่องจากมนุษย์ขาดความสามารถในการค้นหาอย่างลึกซึ้งเช่นโปรแกรมหมากรุกคอมพิวเตอร์แบบดั้งเดิม (ฟริตซ์, สต็อคฟิชและคณะ) พวกเขาสร้าง 'หลักการเชิงกลยุทธ์' หรือกฎนิ้วหัวแม่มือ (การควบคุมกลาง, การพัฒนา, ความปลอดภัยของกษัตริย์) และแนวความคิด สถานการณ์ในรูปแบบที่แตกต่างกันเช่นการเสียสละการเชื่อมต่อใหม่คู่บิชอปตอนจบที่เฉพาะเจาะจงเช่นวิธีการเข้าเฝ้ากษัตริย์ด้วยการโกงและการจำนำ

ฉันคิดว่าอัลฟาศูนย์ได้คิดค้นแนวคิดดังกล่าวขึ้นใหม่หลายอย่าง (การรับรู้และแนวคิด) และยังได้เรียนรู้แนวคิดใหม่มากมาย - เพราะความรู้ไม่จำเป็นต้องสร้างขึ้นจากฟังก์ชั่นการประเมินของมนุษย์และการค้นหา minmax ที่แข็งแกร่ง อัจฉริยภาพ

แน่นอนว่าหลักการดังกล่าวขัดแย้งกันในบางสถานการณ์นั่นคือเหตุผลที่ว่าทำไมการเล่นบทละครและข้อผิดพลาดต่าง ๆ จึงได้รับการศึกษาอย่างรอบคอบ - เช่นอย่าพัฒนาราชินีเร็วเกินไป

ในทางกลับกันมนุษย์ก็สังเกตเห็นว่าเมื่อคุณสูญเสียหนึ่งชิ้น (โดยไม่มีการแลกเปลี่ยน) คุณก็อ่อนกำลังลงดังนั้นพวกเขาจึงระมัดระวังอย่างยิ่งที่จะไม่สูญเสียชิ้นใดชิ้นหนึ่งโดยไม่มีการชดเชย

ฉันคิดว่าการเล่นของ Alphazero มีอิสระในการเล่นหมากรุกคอมพิวเตอร์ (และหมากรุกมนุษย์) จากความหวาดกลัวอย่างทารุณในการสูญเสียเนื้อหาเล็ก ๆ และความเชื่อมั่นในการเปิดหนังสือและคุณค่าของชิ้น

เกม Alphazero แสดงสิ่งต่าง ๆ เช่น 'หลักการเชิงกลยุทธ์' เช่นการควบคุมศูนย์การพัฒนาพื้นที่การริเริ่มมีความสำคัญมากกว่าหากคู่ต่อสู้ของคุณเลอะเทอะ กล่าวอีกนัยหนึ่ง 'การเสียสละ' ไม่ได้เป็นการเสียสละจริงๆ แต่เป็นการแลกเปลี่ยนเพื่อรับความคิดริเริ่มตำแหน่งการควบคุมทิศทาง

Alphago (ไม่ใช่ศูนย์) อาศัยการประเมินของมนุษย์ แต่ alphazero ได้จัดทำห่วงโซ่การประเมินทั้งหมดเพื่อ 'ค้นหาหรือจำลอง' เป็นกระบวนการเดียวจบและจบด้วยวิธีการเล่นแบบใหม่ทั้งหมด

หากคุณคิดเกี่ยวกับมันปรมาจารย์ที่ยิ่งใหญ่แห่งอดีตอย่าง Morphy, Fischer, Kasparov ได้รับการชื่นชมจากการเล่นแบบตัวต่อตัวที่พวกเขาไม่ได้ถูก จำกัด ด้วยการประเมินผลงานเขียนโดยใช้ประโยชน์จากสถานการณ์พิเศษที่ ออกมา ฉันคิดว่าเกมของ alpha zero มีปัจจัย 'wow' เช่นนี้

ทำไมเครือข่ายประสาท ในขณะที่โปรแกรมคอมพิวเตอร์ที่ใช้การแสดงเชิงสัญลักษณ์และการค้นหาแบบแยกสามารถใช้วิธีคิดแบบ 'หนึ่ง' เท่านั้นเครือข่ายประสาทเทียมสามารถเปรียบเทียบสถานการณ์ในกระบวนการด้วยการสลับการประเมินที่ขัดแย้งกันและพลิกไปสู่มุมมองที่มีค่ามากกว่า


2

มนุษย์มากขึ้นในแง่ที่ว่าการเคลื่อนไหวที่เล่นดูเหมือนจะสอดคล้องกันมากขึ้นหรือน้อยลงด้วยวิธีการของมนุษย์: เล่นเพื่อประโยชน์ในระยะยาวการเสียสละตำแหน่งงานกิจกรรมชิ้น มีการบรรจบกันอย่างชัดเจนกับความรู้หมากรุกของมนุษย์และหลักการเชิงกลยุทธ์ที่เป็นที่ยอมรับในหลายศตวรรษที่ผ่านมา (เช่น "ค้นพบ" ช่องเปิดหลายแห่ง) นี่เป็นสิ่งที่น่าทึ่งเนื่องจากข้อเท็จจริงที่ว่า AlphaZero ยังไม่ได้รับการถ่ายทอดความรู้หมากรุกที่มนุษย์สร้างขึ้น

แต่ความคล้ายคลึงกันสิ้นสุดที่นี่ AlphaZero นำมันไปสู่อีกระดับและทำได้ดีขึ้นและในแบบที่มนุษย์ไม่เคยคิด AlphaZero มีความสามารถ "เหนือมนุษย์" ในการอ้างถึงกระดาษ: "AlphaZero บรรลุระดับเหนือมนุษย์ในการเล่น [... ]" ( https://arxiv.org/pdf/1712.01815.pdf ) นอกจากนี้มันไม่ได้มีจุดอ่อนโดยธรรมชาติที่มีต่อมนุษย์: ปัญหาสมาธิ, ความกลัว, ความเหนื่อยล้า, ความรู้สึก, สัญชาตญาณ ฯลฯ ที่ จำกัด มนุษย์ และสมองซิลิกอนช่วยให้สามารถผสมยุทธวิธีได้เกินความสามารถของมนุษย์เมื่อจำเป็น


2
จากนั้นก็มีความขัดแย้ง Stockfish ได้ประโยชน์จากประสบการณ์ของมนุษย์ Alphazero ไม่ได้ แต่อัลฟ่าศูนย์ดูเหมือนมนุษย์มากขึ้น บางทีความหมายที่เราไม่ได้ทำกับรุ่น Stackfish เป็นงานที่ดีมากในการกลั่นกรองความคิดของเรา
Philip Roe

1

ฉันอยากจะบอกว่าขอบคุณทุกคนที่ตอบคำถามนี้บ่อยครั้งด้วยความละเอียดอ่อนและลึกซึ้ง ความแตกต่างที่สำคัญในการตอบสนองดูเหมือนว่าสำหรับฉันคือการตีความคำว่ามนุษย์

AlphaZero ไม่ได้เล่นหมากรุกของมนุษย์ในแง่ของการกำกับดูแลและการคำนวณผิด แต่กระบวนการ "ความคิด" ของมันดูเหมือนจะสอดคล้องกันในรูปแบบที่มีความคิดริเริ่มเพื่อฉันคิดว่าผู้เล่นที่แข็งแกร่งที่สุดคิดอย่างไร คุณวาดขึ้นอย่างรวดเร็วรายการของ "การเคลื่อนไหวของผู้สมัคร" ที่คุณต้องการเล่นและสำหรับผู้เล่นที่แข็งแกร่งที่สุดรายชื่อนี้มีความแม่นยำอย่างน่าอัศจรรย์แม้จะเล่นอะไรบางอย่างที่เหมือนเกมที่มีเหตุผลในเวลาหนึ่งนาที เวลาที่เหลือจะใช้ในการถามการเคลื่อนไหวในรายการนั้นใช้งานได้จริง Petrosian กล่าวว่าเขารู้สึกว่าอยู่ในรูปแบบที่มากที่สุดเมื่อการเคลื่อนไหวในที่สุดเขาก็เล่นเป็นคนแรกที่เขาคิด เราทุกคนรู้ว่ามันเป็นที่น่าพอใจเมื่อการเคลื่อนไหวที่เราต้องการเล่นกลายเป็นกลยุทธ์ที่เล่นได้ ฉันสามารถเกี่ยวข้องกับอัลกอริทึม AlphaZero ได้ง่ายกว่าการค้นหาอัลฟาเบต้า

สิ่งที่น่าสนใจที่สุดคือวิธีที่เครื่องสามารถเล่นด้วยตนเองเพื่อจดจำผู้สมัครที่มีแนวโน้ม นั่นคือที่ที่มีศักยภาพอยู่สำหรับการปฏิวัติที่แท้จริง ฉันสงสัยว่าจะเป็นไปได้สำหรับโดเมนเช่นหมากรุกและไปที่ซึ่งสามารถกำหนดวัตถุประสงค์ได้ชัดเจน แต่ฉันคิดว่ามันน่าทึ่งที่ AlphaZero ดูเหมือนจะแสดงการเล่นอย่างมีจุดมุ่งหมาย แต่สต็อคฟิชไม่รู้ว่าเกิดอะไรขึ้น


0

วิธีที่ฉันเข้าใจโครงข่ายประสาทเทียมข้อดีที่แท้จริงของ A0 ก็คือการประเมินตำแหน่งบอร์ดที่เหนือกว่า การประเมินนี้รวมทั้งความรู้ทางยุทธวิธีระยะสั้น (ซึ่งในแง่หนึ่งทำหน้าที่เป็นตัวคูณของจำนวนตำแหน่งที่ตรวจสอบ) และการประเมินค่าเชิงกลยุทธ์ที่เหนือกว่า


1
ยินดีต้อนรับสู่ Chess SE! คุณช่วยให้การอ้างอิงสำหรับเหตุผลที่คุณคิดว่าเครือข่ายประสาททำงานอย่างนั้น?
Pablo S. Ocal

0

สิ่งหนึ่งที่ฉันรู้สึกว่าการอภิปรายทั้งหมดที่ไม่ได้รับคือ A0 สามารถเล่นหมากรุก Shogi ไปได้ทุกอย่างดีมากและจากการฝึกฝนด้วยตนเอง นี่คือมนุษย์มากขึ้น ยิ่งไปกว่านั้นมันยังเผยความคิดใหม่ ๆ ให้กับผู้เล่นอันดับต้น ๆ (อย่างที่ฉันเข้าใจ) เอ็นจินอื่น ๆ นั้นมีความเฉพาะเจาะจงมาก A0 ก็ดูเหมือนเป็นอย่างอื่น ฉันอยากจะเห็นมันเล่นหมากรุก 960


1
ฉันไม่เห็นว่าสิ่งนี้ตอบคำถามได้อย่างไร
SmallChess

-2

ฉันไม่คิดว่ามี 'มนุษย์' เกี่ยวกับอัลฟ่า มันใช้ฮาร์ดแวร์ที่แข็งแกร่งกว่าเดิมและเล่นหมากรุกคุณภาพสูงขึ้น ช่องเปิดที่ดีที่พบ (ตัวอย่างเช่นไปยังฝั่ง fianchetto ด้วย Bg2) นั้นเกิดจากการเปิดหนังสือจำลอง แนวคิดที่สร้างความประทับใจให้ฉันและฉันได้กำหนดไว้ใน 'ความลับของหมากรุก': http://davidsmerdon.com/?p=1970ซึ่งอัลฟ่าใช้เป็นครั้งแรกในบรรดาเครื่องมืออันดับต้น ๆ โซ่ -e5-f6 ที่กุเรื่องทั้งเกม Bg6 สังเวยและผู้สร้างกลางย้อนหลังดังที่เห็นในเกมกลาโหมฝรั่งเศสระหว่างเครื่องยนต์ทั้งสอง แนวคิดทั้งสองนี้เกี่ยวข้องกับการค้นหาในระดับลึกมากและบางทีที่นี่อาจได้รับความช่วยเหลือจากฮาร์ดแวร์อันยิ่งใหญ่ ไม่อย่างนั้นฉันไม่เห็นมนุษย์คนใดเกี่ยวกับการเล่น หลายเกมเป็นที่ยอมรับ


5
สองข้อความของคุณไม่ถูกต้อง: 1) "มันเพิ่งใช้ฮาร์ดแวร์ที่แข็งแกร่งกว่า" - ใช่มันใช้ฮาร์ดแวร์ที่แข็งแกร่งกว่า Stockfish แต่นี่ไม่ใช่สิ่งที่สร้างความแตกต่าง เป็นซอฟต์แวร์ที่แตกต่างกันมากซึ่งต้องใช้ฮาร์ดแวร์ที่แข็งแกร่ง 2) "ช่องเปิดที่ดีที่พบนั้นเต็มไปด้วยหนังสือเปิดที่จำลองขึ้นมา" - มันไม่ได้ใช้หนังสือเปิดใด ๆ
IA Petr Harasimovic

นี่เป็นสิ่งที่สร้างความแตกต่างได้อย่างแม่นยำนั่นคือฮาร์ดแวร์อัลฟ่าที่ใหญ่ขึ้นอย่างทวีคูณ ผู้ทดสอบหมากรุกทุกคนรู้ว่าความเร็วเพิ่มเป็นสองเท่าเพิ่มความแข็งแกร่งของหมากรุกประมาณ 70 elos หรือมากกว่านั้นขึ้นอยู่กับซอฟต์แวร์ ความแตกต่างระหว่าง 32 คอร์และ 4TPUs 1,000-2,000 คอร์คือ 6 เท่าหรือมากกว่านั้น นั่นจะทำให้ 420 elos ดังนั้นในขณะที่มันทำงานได้ดีกว่า 100 elos บนฮาร์ดแวร์นั้นในสภาวะที่เท่าเทียมกัน Alpha จะอยู่ที่ประมาณ 300 elos ที่อ่อนแอกว่า
Lyudmil Tsvetkov

มันใช้หนังสือเปิดแน่นอนไม่ว่าสิ่งที่พวกเขาเรียกร้อง Alpha ได้รับการฝึกฝนเกี่ยวกับเกมที่ชนะของ GM traspires นั้นชัดเจนมากถ้าใครเห็นตัวเลือกการเปิดของอัลฟ่า: ทฤษฎีช่องเปิดที่แม่นยำแนะนำและแม่นยำพวกที่โอกาสชนะที่ดีที่สุด คุณไม่ได้คู่หมั้นกับ Bg2 แบบนั้น
Lyudmil Tsvetkov

3
@Lyudmil, Google ได้บรรลุสิ่งที่น่าอัศจรรย์ใน Alpha Zero มันสอนการเคลื่อนไหวเหล่านี้ด้วยการเล่นกับตัวเองเท่านั้นที่รู้กฎของเกม! การกล่าวหาว่าทีมการโกงอัลฟ่าซีโร่แสดงให้เห็นว่าคุณไม่เข้าใจความสำเร็จหรือภารกิจของพวกเขาเลยพวกเขากำลังผลักดันพรมแดนของ AI ไปข้างหน้าและเป็นท่าทางเล็ก ๆ น้อย ๆ ไปพร้อมกัน
แล่นเรือ

1
@LyudmilTsvetkov คุณไม่ถูกต้องสมบูรณ์ อัลฟ่าซีโร่ (และนี่คือประเด็นของมัน) ได้รับการฝึกฝนโดยไม่มีเกมของมนุษย์ มันบอกว่ากฎระเบียบและการประดิษฐ์คิดค้นด้านของการเล่นของทุกคนในสี่ชั่วโมงของการเล่นด้วยตัวเองโดยไม่ต้องแล้วใด ๆข้อมูลภายนอกใหม่
ไม่ฝักใฝ่ฝ่ายใด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.