AI ใหม่ชนะได้ทุกที่ AI ที่คล้ายคลึงกันสามารถชนะที่หมากรุกได้หรือไม่? มันสามารถบรรลุการฝึกอบรมด้วยตนเองที่บริสุทธิ์ได้หรือไม่?


20

หนึ่งในคำถามยอดนิยมที่ถามในเว็บไซต์นี้เกี่ยวกับโอกาสของAI หมากรุกที่ฝึกตัวเองอย่างหมดจด

วันนี้ChessBase ถูกเบี่ยงเบนไปจากการรายงานข่าวของการแข่งขัน FIDE Candidates เพื่อรายงานว่า AI ใหม่นั้นเป็นครั้งแรกที่เอาชนะหัวหน้าชั้นนำของเกมที่แตกต่างกันไปซึ่งต่อต้าน AIs สไตล์หมากรุกมาหลายปี การอ่านรายงานฉบับแรกแสดงให้เห็นว่า AI ที่ออกใหม่ไม่เหมือนกับหมากรุก AIs แต่เกือบจะเป็นเกมเล่นทั่วไป (GGP) AI อย่างไรก็ตามบทความของ ChessBase ไม่ได้ใช้คำว่าจีจีพี แต่ดูเหมือนว่าจะพูดว่าไอโกที่สามารถชนะได้ในวิดีโอเกมธรรมดา

มีเหตุผลใดบ้างที่การชนะแบบโก AI ไม่สามารถทำได้ด้วยการปรับเปลี่ยนเล็กน้อยก็จะชนะที่หมากรุกด้วยเช่นกัน? หากเป็นเช่นนั้น AI แสดงให้เห็นว่าสัญญาว่าจะบรรลุการฝึกอบรมด้วยตนเองอย่างแท้จริงคำตอบที่ยอดเยี่ยมหลายประการสำหรับคำถามก่อนหน้านี้ได้กล่าวถึงก่อนหน้านี้ซึ่งในเวลานั้นยังไม่สามารถทำได้ ทำไมหรือทำไมไม่?

ฉันสงสัยว่ายังไม่มีคำตอบที่ครบถ้วนและครบถ้วนสำหรับคำถามของฉันดังนั้นแม้คำตอบบางส่วนจากความเชี่ยวชาญที่เกี่ยวข้องจะได้รับการชื่นชม

สำหรับการอ้างอิงเพิ่มเติมดูคำถามและคำตอบที่เกี่ยวข้องนี้

UPDATE

เมื่อคำถามข้างต้นถูกโพสต์ครั้งแรกเมื่อห้าวันที่แล้วและเมื่อได้รับคำตอบที่ดีบางข้อด้านล่างข่าวแรกเกี่ยวกับชัยชนะของ AI ที่เพิ่งเริ่มปรากฏขึ้น ตั้งแต่นั้นมาข้อมูลเพิ่มเติมและคำอธิบายได้เกิดขึ้น

น่าสนใจเป็นพิเศษนับ แต่นั้นมาเป็นการอภิปรายโต๊ะกลมห้าด้านที่อ่านง่ายซึ่งโจนาธานแชฟเฟอร์พูดถึง:

การเรียนรู้จากเกมมนุษย์ช่วยเร่งการเรียนรู้ของโปรแกรม AlphaGo สามารถเรียนรู้ที่จะเป็นผู้เล่นที่แข็งแกร่งได้ด้วยตัวเองโดยไม่ต้องใช้เกมของมนุษย์ กระบวนการเรียนรู้ใช้เวลานานขึ้น

ตามโฮสต์ของโต๊ะกลม, Schaeffer คือ "[c] ศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ที่มหาวิทยาลัยอัลเบอร์ตาและชายผู้แก้ไขตัวตรวจสอบ"; ดังนั้นน่าจะเป็นไปได้ว่าเขามีคุณสมบัติที่จะแสดงความคิดเห็น

สำหรับข้อมูลเพิ่มเติมต่อไปนี้เป็นบันทึกของอีกการสนทนาที่เปิดกว้างซึ่งผู้เข้าร่วมจำนวนมากดูเหมือนจะได้รับข้อมูลที่ดีกว่าปกติ การอภิปรายเกิดขึ้นในระหว่างการแข่งขัน

อัปเดตเพิ่มเติมหนึ่งปีครึ่งในภายหลัง: commenter @MarkS เขียน:

นี่เป็นเพียงความคิดเห็นเพราะมันเกี่ยวกับ Go ไม่ใช่ Chess แต่ AlphaGo Zero ได้รับ "การฝึกฝนด้วยตนเองอย่างแท้จริง" จากการถูกบอกว่าใครชนะ (ไม่ใช่คะแนนสุดท้าย) และแข็งแรงกว่าและมีประสิทธิภาพมากกว่า AI ที่เอาชนะ Lee Sedol . สำหรับข้อมูลเพิ่มเติมโปรดดูdeepmind.com/blog/alphago-zero-learning-scratch


ฉันขอแนะนำให้คุณถามคำถามนี้ในฟอรัมทางเทคนิคเพิ่มเติม AI เป็นหัวข้อที่ซับซ้อนและหนึ่งควรมีความเชี่ยวชาญที่สำคัญในการทำความเข้าใจ ดูคำตอบที่นี่ฉันไม่แน่ใจว่าคุณได้รับคำตอบที่สมเหตุสมผล
Salvador Dali

5
คำตอบที่ได้รับมีความนิยมมาก ฉันโหวตมากกว่าหนึ่งครั้งแล้ว หากฉันยังไม่ยอมรับคำตอบใด ๆ นี่ไม่ใช่คำวิจารณ์ของคำตอบ แต่เป็นการยอมรับว่าคำถามนั้นยากและหัวข้อใหม่ดังนั้นคำตอบที่ยอมรับอาจยังไม่พร้อมใช้งาน ลองเปิดคำถามนี้ทิ้งไว้สักครู่เพื่อดูว่าหลังจากผ่านไปสักครู่คำตอบที่ไม่สามารถใช้ได้ในวันนี้จะมีให้ในภายหลัง ขอบคุณ
บาท

1
นี่เป็นเพียงความคิดเห็นเพราะมันเกี่ยวกับ Go ไม่ใช่ Chess แต่ AlphaGo Zero ได้รับ "การฝึกฝนด้วยตนเองอย่างแท้จริง" จากการถูกบอกว่าใครชนะ (ไม่ใช่คะแนนสุดท้าย) และแข็งแรงกว่าและมีประสิทธิภาพมากกว่า AI ที่เอาชนะ Lee Sedol . สำหรับข้อมูลเพิ่มเติมโปรดดูdeepmind.com/blog/alphago-zero-learning-scratch
Mark S.

1
@thb ฉันคิดว่า AlphaZero นั้นเป็น AI
Harry Weasley

1
เมื่อวันที่ธันวาคม 2017 AlphaZero สอนตัวเองสไตล์ของหมากรุกจากกฎของเกมarxiv.org/pdf/1712.01815.pdf เท่านั้นและเลิก StockFish อย่างน่าเชื่อถือ
saille

คำตอบ:


14

ดีดีดี! DeepMind ได้ตีพิมพ์บทความที่พวกเขาบอกว่าพวกเขาได้ตั้งโปรแกรมและฝึกอบรมคอมพิวเตอร์เครือข่ายประสาทเพื่อเอาชนะ Stockfish

ด้วยเวลาคิด 1 นาทีต่อการย้ายคอมพิวเตอร์ AlphaZero ของพวกเขาเอาชนะ Stockfish โดย +25, = 25, -0 ด้วยสีขาวและ + 3, = 47,0- เป็นสีดำ

พวกเขา "ฝึกฝน" คอมพิวเตอร์ 3 เครื่องแยกกันเพื่อเล่นหมากรุกโชกิและโกและเอาชนะคู่แข่งซิลิคอนของพวกเขาอย่างมั่นใจ

นี่คือวิธีที่กระดาษอธิบายการฝึกอบรมและการประเมินผล -

เกมที่เล่นด้วยตนเองนั้นสร้างขึ้นโดยใช้พารามิเตอร์ล่าสุดสำหรับเครือข่ายประสาทนี้โดยไม่ผ่านขั้นตอนการประเมินและการเลือกผู้เล่นที่ดีที่สุด

AlphaGo Zero ปรับพารามิเตอร์ไฮเปอร์ของการค้นหาโดยการปรับให้เหมาะสมแบบเบย์ ใน AlphaZero เราใช้พารามิเตอร์ไฮเปอร์เดียวกันซ้ำกันสำหรับเกมทั้งหมดโดยไม่ต้องปรับแต่งเฉพาะเกม ข้อยกเว้นเพียงอย่างเดียวคือเสียงที่เพิ่มเข้าไปในนโยบายก่อนหน้าเพื่อให้แน่ใจว่ามีการสำรวจ นี่คือสัดส่วนตามจำนวนปกติของการเคลื่อนไหวตามกฎหมายสำหรับเกมประเภทนั้น

เช่นเดียวกับ AlphaGo Zero สถานะกระดานถูกเข้ารหัสโดยระนาบเชิงพื้นที่ตามกฎพื้นฐานสำหรับแต่ละเกม การกระทำจะถูกเข้ารหัสโดยระนาบเชิงพื้นที่หรือเวกเตอร์แบบแบนโดยยึดตามกฎพื้นฐานสำหรับแต่ละเกมเท่านั้น (ดูวิธีการ)

เราใช้อัลกอริทึม AlphaZero กับหมากรุก shogi และ Go เว้นแต่จะระบุไว้เป็นอย่างอื่นการตั้งค่าอัลกอริทึมเดียวกันสถาปัตยกรรมเครือข่ายและพารามิเตอร์ไฮเปอร์ถูกนำมาใช้สำหรับทั้งสามเกม เราได้ฝึกอบรม AlphaZero แยกต่างหากสำหรับแต่ละเกม การฝึกอบรมดำเนินการไปแล้ว 700,000 ขั้นตอน (มินิแบทช์ขนาด 4,096) เริ่มต้นจากการสุ่มพารามิเตอร์เริ่มต้นโดยใช้ 5,000 รุ่นแรกเพื่อสร้างเกมที่เล่นด้วยตัวเองและรุ่นที่สอง 64 วินาทีเพื่อฝึกฝนโครงข่ายประสาทเทียม รายละเอียดเพิ่มเติมของขั้นตอนการฝึกอบรมมีระบุไว้ในวิธีการ

รูปที่ 1 แสดงประสิทธิภาพของ AlphaZero ในระหว่างการเรียนรู้การเล่นเสริมด้วยตนเองซึ่งเป็นหน้าที่ของขั้นตอนการฝึกอบรมในระดับ Elo (10) ในหมากรุก AlphaZero ทำได้ดีกว่า Stockfish หลังจากผ่านไปเพียง 4 ชั่วโมง (ขั้นตอน 300k) ใน shogi, AlphaZero ทำได้ดีกว่า Elmo หลังจากน้อยกว่า 2 ชั่วโมง (110k ก้าว) และใน Go, AlphaZero ทำได้ดีกว่า AlphaGo Lee (29) หลังจาก 8 ชั่วโมง (165k ก้าว)

เราประเมินอินสแตนซ์ที่ผ่านการฝึกอบรมอย่างเต็มรูปแบบของ AlphaZero กับ Stockfish, Elmo และ AlphaGo Zero รุ่นก่อนหน้า (ผ่านการฝึกอบรม 3 วัน) ในหมากรุก shogi และ Go ตามลำดับเล่นการแข่งขัน 100 เกมที่การควบคุมเวลาแข่งขันหนึ่งนาทีต่อการย้าย AlphaZero และ AlphaGo Zero ก่อนหน้าใช้เครื่องเดียวที่มี 4 TPU Stockfish และ Elmo เล่นในระดับความสามารถที่แข็งแกร่งที่สุดโดยใช้ 64 เธรดและขนาดแฮช 1GB AlphaZero เอาชนะฝ่ายตรงข้ามได้อย่างมั่นใจแพ้เกมทั้งหมดไปที่ Stockfish และเกมแปดเกมที่ Elmo (ดูข้อมูลเพิ่มเติมสำหรับเกมตัวอย่างหลายเกม) รวมถึงการเอาชนะ AlphaGo Zero เวอร์ชันก่อนหน้า (ดูตารางที่ 1)

คอมพิวเตอร์ของพวกเขาใช้ชิปรูปแบบใหม่ที่เรียกว่า "TPU" ( Tensor Processing Unit ) ที่พัฒนาโดย Google สำหรับงานการเรียนรู้ของเครื่อง

พวกเขายังอ้างว่าอัลกอริทึมการค้นหาแบบต้นไม้ของ Monte Carlo นั้นดีกว่าและเป็น "มนุษย์ที่ชอบ" มากกว่าอัลกอริทึมการค้นหาอัลฟาเบต้าแบบดั้งเดิม -

นอกจากนี้เรายังวิเคราะห์ประสิทธิภาพสัมพัทธ์ของการค้นหา MCTS ของ AlphaZero เมื่อเปรียบเทียบกับเครื่องมือค้นหาอัลฟาเบต้าที่ทันสมัยที่ใช้โดย Stockfish และ Elmo AlphaZero ค้นหาเพียง 80,000 ตำแหน่งต่อวินาทีในหมากรุกและ 40,000 ในโชกิเมื่อเทียบกับ 70 ล้านสำหรับสต็อคฟิชและ 35 ล้านสำหรับเอลโม่ AlphaZero ชดเชยจำนวนการประเมินที่ต่ำกว่าโดยใช้โครงข่ายประสาทเทียมที่ลึกกว่าเพื่อมุ่งเน้นการคัดเลือกที่หลากหลายในรูปแบบที่มีแนวโน้มมากที่สุดซึ่งเป็นวิธีที่“ เหมือนมนุษย์” มากกว่าในการค้นหาตามที่เสนอโดย Shannon รูปที่ 2 แสดงความสามารถในการปรับขนาดของผู้เล่นแต่ละคนที่เกี่ยวกับเวลาคิดวัดในระดับ Elo เทียบกับ Stockfish หรือ Elmo ด้วยเวลาคิด 40ms MCTS ของ AlphaZero ปรับขนาดได้อย่างมีประสิทธิภาพด้วยเวลาคิดมากกว่า Stockfish หรือ Elmo

นี่คือบางส่วนของเกม -

Stockfish - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 OO 8. QE1 f6 9. Nc4 Rf7 10. a4 bf8 11. KH1 NC5 12. a5 NE6 13 Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26. Nxa5 BA6 27. Bxd4 Rxd4 28. Nc4 RD8 29. g3 H6 30. Qa5 Bc8 31. Qxc7 BH3 32. RG1 กข 7 33. Qe5 Qxe5 34. Nxe5 Ra7 35. Nc4 G5 36. RC1 BG7 37 NE5 RA8 38. Nf3 BB2 39. Rb1 Bc3 40 NG1 BD7 41. NE2 BD2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 BD2 45. RF1 RA2 46. h3 Bxe2 47. RF2 Bxf4 48. Rxe2 Be5 49. RF2 KG7 50 g4 BD4 51. RE2 Kf6 52. e5 + Bxe5 53. Kf3 Ra1 54. RF2 Re1 55 Kg2 + Bf4 56. c3 RC1 57. d4 Rxc3 58. dxc5 Rxc5 59 b4 RC3 60 h4 Ke5 61 . hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

เกม

Stockfish - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 OO 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. BH4 Qf7 12. Nbd2 A5 13 Bg3 Re8 14. QC2 Nf8 15. c4 c5 16. d5 b6 17. NH4 G6 18. Nhf3 BD7 19. Rad1 Re7 20. h3 Qg7 21. QC3 Rae8 22. a3 H6 23. BH4 Rf7 24. Bg3 Rfe7 25. BH4 Rf7 26. Bg3 A4 27. KH1 Rfe7 28. BH4 Rf7 29. Bg3 Rfe7 30. BH4 G5 31. Bg3 NG6 32. NF1 Rf7 33. NE3 NE7 34. Qd3 H5 35. h4 Nc8 36. RE2 g4 37 Nd2 Qh7 38. KG1 bf8 39. NB1 Nd6 40. Nc3 BH6 41. RF1 RA8 42. KH2 Kf8 43. KG1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46 Rfxe3 Ke7 47. BE1 Qh7 48. Rg3 RG7 49. Rxg7 + Qxg7 50. RE3 RG8 51 Rg3 Qh8 52. NB1 Rxg3 53. Bxg3 Qh6 54. Nd2 Bg4 55 KH2 Kd7 56. b3 axb3 57. Nxb3 Qg6 58. Nd2 BD1 59 Nf3 BA4 60. Nd2 Ke7 61 . Bf2 Qg4 62. Qf3 BD1 63. Qxg4 Bxg4 64. a4 Nb7 65 NB1 Na5 66. Be3 Nxc4 67. BC1 BD7 68 Nc3 C6 69 KG1 cxd5 70. exd5 Bf5 71 KF 2 ขนาด Nd6 72. Be3 Ne4 + 73. Nxe4 Bxe4 74. a5 bxa5 75. Bxc5 + Kd7 76. d6 Bf5 77. Ba3 Kc6 78. Ke1 Kd5 79. Kd2 Ke4 80. Bb2 Kf4 81. Bc1 Kg4 82. Ke2 a4 83 K4 84 Kf2 Kg4 85 Ba3 Bd7 86 Bc1 Kf5 87. Ke3 Ke6 0-1

สีขาว: AlphaZero Black: Stockfish

AlphaZero - Stockfish, 1-0
1. Nf3 Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13 Qf4 O-O 14. e5 NH5 15. Qg4 Re8 16. Nc3 Qb8 17. ND5 bf8 18. Bf4 Qc8 19. h3 NE7 20. NE3 BC6 21. RD6 NG7 22. Rf6 Qb7 23. BH6 ND5 24. Nxd5 Bxd5 25. Rd1 NE6 26. Bxf8 Rxf8 27. Qh4 BC6 28. Qh6 Rae8 29. RD6 Bxf3 30. Bxf3 QA6 31. h4 Qa5 32. Rd1 C4 33. Rd5 QE1 + 34 Kg2 C3 35. bxc3 Qxc3 36. h5 Re7 37 BD1 QE1 38. BB3 RD8 39. RF3 QE4 40. Qd2 Qg4 41. BD1 QE4 42. H6 Nc7 43 กข 6 NE6 44. BB3 Qxe5 45. Rd5 Qh8 46. Qb4 NC5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 RF8 50. Qf4 A5 51. g4 d5 52. Bxd5 กข 7 53. Bc4 A4 54. G5 a3 55 Qf3 RC7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 RF8 59 Qd6 Rfc8 60. a4 1- 0

แค่อ่านกระดาษ น่าทึ่งจริงๆ แน่นอนว่านี่ไม่ได้หมายความว่าคุณจะไม่สามารถสร้างสิ่งที่แข็งแกร่งยิ่งขึ้นด้วยเทคนิคแบบดั้งเดิมรวมกับ AlphaZero แต่ยัง ...
BlindKungFuMaster

10

ตกลงฉันต้องยอมรับว่าฉันผิด แม้ว่าฉันจะยืนยันว่ามันเป็นเพราะความรู้ของความคิดเห็นของผู้เชี่ยวชาญไม่ใช่ความงมงายทั่วไป: เพื่ออ้างอิงบทความ : "อย่างไรก็ตามโปรแกรมหมากรุกที่ใช้ MCTS ดั้งเดิมนั้นอ่อนแอกว่าโปรแกรมค้นหาอัลฟาเบต้า (4, 24) ในขณะที่อัลฟา โปรแกรมเบต้าที่ใช้เครือข่ายประสาทเทียมก่อนหน้านี้ไม่สามารถแข่งขันกับฟังก์ชั่นประเมินผลที่ทำด้วยมือได้เร็วขึ้น "

เห็นได้ชัดว่าหมากรุกมีกลยุทธ์ที่ลึกพอที่คุณจะสามารถวางแผนให้ใครซักคนได้ซึ่งจะสามารถคำนวณคุณได้ สำหรับฉันมันเป็นเรื่องที่น่าประหลาดใจอย่างมากเพราะการพัฒนาเครื่องมือหมากรุกได้ดำเนินไปในทิศทางตรงกันข้าม (เห็นได้ชัดว่ายังมีข้อแม้เล็กน้อยว่า AlphaZero นั้นแข็งแกร่งกว่า Stockfish หรือไม่: Stockfish ที่เล่นกับ hashtables เพียง 1gb และ 64 คอร์อาจไม่ตรงกับ TPU สี่ตัวจริง ๆ )

นอกจากนี้ยังเป็นสิ่งที่น่าตื่นเต้นจริงๆที่จะเกิดขึ้นเพราะ AlphaZero น่าจะมีจุดแข็งที่แตกต่างจากเครื่องยนต์ทั่วไป

นอกจากนี้ยังหมายความว่าฉันปรับปรุงความเชื่อมั่นของฉันเกี่ยวกับความสำคัญของ AlphaGo ว่าเป็นความก้าวหน้าทางเทคโนโลยีโดยมาก โดยพื้นฐานแล้วโชกุโชกไปและเล่นหมากรุกด้วยการติดตั้งครั้งเดียวนั้นยอดเยี่ยมมากไม่ต้องพูดถึงเกมอื่น ๆ อีกหลายสิบเกมที่น่าจะเล่นในระดับเหนือมนุษย์โดย AlphaZero

มีคำอธิบายที่ดีว่าเหตุใด MCTS จึงเป็นความคิดที่ดีแม้กระทั่งหมากรุกเมื่อเทียบกับการค้นหาอัลฟา - เบต้า (จากบทความ): "AlphaZero ประเมินตำแหน่งโดยใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นโดยประมาณบนเครือข่ายประสาทลึกมากกว่าเชิงเส้น การประมาณฟังก์ชั่นที่ใช้ในโปรแกรมหมากรุกทั่วไปนี้ให้การเป็นตัวแทนที่มีประสิทธิภาพมากขึ้น แต่ยังอาจแนะนำข้อผิดพลาดการประมาณปลอม MCTS เฉลี่ยมากกว่าข้อผิดพลาดการประมาณเหล่านี้ซึ่งมีแนวโน้มที่จะยกเลิกเมื่อประเมินทรีย่อยขนาดใหญ่ คำนวณ mini-max อย่างชัดเจนซึ่งแพร่กระจายข้อผิดพลาดการประมาณที่ใหญ่ที่สุดไปยังรูทของทรีย่อย " (เน้นโดยฉัน)

นี่คือคำตอบเก่าของฉันยังคงมีบางจุดที่ถูกต้องแม้จะมีข้อสรุปที่ถูกแทนที่โดยความเป็นจริง

ประการแรก Alphago ไม่ใช่ระบบการเล่นเกมทั่วไป มันเป็นโปรแกรมที่ออกแบบมาเพื่อเล่นอย่างหมดจดและไม่มีอะไรอื่น อย่างไรก็ตามมันสร้างขึ้นจากการสร้างบล็อคบางอย่างที่มีการบังคับใช้ที่กว้างขึ้นเช่นเครือข่ายประสาทเทียมซึ่งใช้ในการจดจำภาพและมีการใช้งานทันทีในการวินิจฉัยทางการแพทย์และการเรียนรู้การเสริมแรงซึ่งใช้ในการเรียนรู้เกมอาตาริ บทความ.

นอกจากนี้เอ็นจิ้นปัจจุบันทำ"เรียนรู้" ด้วยการเล่นด้วยตนเอง : "Overnight คอมพิวเตอร์หกเครื่องของ Lefler เล่นได้มากกว่า 14,000 เกมในแต่ละช่วงเวลาแปดชั่วโมง" หกเครื่องคูณ 14,000 เกมเป็นเกมจำนวนมาก "เขากล่าวและด้วย ทุกเกมที่เล่นฐานข้อมูลจะลึกและสมบูรณ์ยิ่งขึ้นแม้จะมีความสนใจในการดูคอมพิวเตอร์เล่นกับอีกเกมหนึ่งผลของการส่งเสียงกระหึ่มวุ่นวายของ Lefler คือความกล้าหาญที่เพิ่มขึ้นของโคโมโด "

หากต้องการตอบคำถามของคุณเป็นกลุ่ม:

มีความแตกต่างที่สำคัญระหว่างหมากรุกและไปเป็นอย่างน้อยจากมุมมองของโปรแกรมเมอร์ หมากรุกเป็นเกมเกี่ยวกับยุทธวิธีในขณะที่เกมต่อสู้เป็นเกมกลยุทธ์ ซึ่งหมายความว่าในเชิงลึกการคำนวณหมากรุกสำคัญกว่าการประเมินตำแหน่ง นั่นเป็นข้อมูลเชิงลึกที่สำคัญที่ทำให้เครื่องยนต์ "เก่าแก่" เช่น Fritz, Shredder, Junior และรุ่นใหม่กว่าเช่น Fruit, Rybka, Houdini, Stockfish, Komodo เนื่องจากในตอนท้ายของแต่ละบรรทัดคุณต้องประเมินตำแหน่งและคุณต้องการคำนวณล็อตของจำนวนบรรทัดและคุณภาพของการประเมินนั้นไม่สำคัญเท่ากับความลึกของการค้นหาเอ็นจิ้นหมากรุกจึงมีฟังก์ชั่นประเมินผลที่รวดเร็วและรวดเร็ว

ในทางกลับกันความซับซ้อนทางยุทธวิธีนั้นใหญ่เกินไปสำหรับคอมพิวเตอร์ ดังนั้นการประเมินตำแหน่งและย้ายอย่างถูกต้องเป็นกุญแจสำคัญ อะไร Alphago นำเกมใหม่เป็นอำนาจการประเมินผลแห่งนี้ซึ่งตั้งอยู่บนพื้นฐานของเครือข่ายประสาทสับสน

ในที่สุดมาถึงจุดของฉัน: ในขณะที่ฟังก์ชั่นการประเมินผลหมากรุกเป็นแบบลีนและรวดเร็วเครือข่ายประสาทมีหลายล้านบางพารามิเตอร์พันล้าน เนื่องจาก "การเรียนรู้" ในบริบทนี้หมายถึงการปรับแต่งพารามิเตอร์จึงมีความเป็นไปได้ที่มากขึ้นสำหรับโปรแกรมการเรียนรู้ด้วยตนเอง

ดังนั้นใช่คุณสามารถใช้การตั้งค่าเช่น Alphago เพื่อสร้างเครื่องมือหมากรุก แต่มันจะไม่ดีโดยเฉพาะ การเรียกใช้ฟังก์ชั่นการประเมินผลนั้นใช้เวลานานมากซึ่งคุณจะต้องใช้กลุ่ม gpus จำนวนมากเพื่อเข้าถึงความลึกของการค้นหาที่จำเป็น (ซึ่งเป็นสิ่งที่ Alphago ทำ) คุณสามารถสร้างฟังก์ชั่นการประเมินผลที่ดีมากแต่การแลกเปลี่ยนความเร็วไม่คุ้มค่า


1
ผมจะไม่เห็นด้วยกับคุณเกี่ยวกับเรื่องนี้คุณสามารถใช้การตั้งค่าเช่น Alphago เพื่อสร้างเครื่องมือหมากรุก แต่มันจะไม่ดีโดยเฉพาะอย่างยิ่ง ฉันสามารถเดิมพันบางอย่างเกี่ยวกับความจริงที่ว่าในเวลาน้อยกว่าหนึ่งปีจะมีเครื่องมือหมากรุกที่อาศัย NN มาก (ส่วนใหญ่อาจจะมีการค้นหาต้นไม้และมอนเต้คาร์โล แต่นี่ไม่สำคัญ) ซึ่งจะใกล้เคียง รัฐของศิลปะ stockfish และเครื่องมือนี้จะไม่ได้มาจาก บริษัท ซุปเปอร์ (เพราะความสนใจในหมากรุกจางหายไปจากนักวิจัย AI นานมาแล้ว) แต่มาจากนักเลงที่แข็งแกร่ง
Salvador Dali

Monte carlo นั้นไร้ประโยชน์อย่างสมบูรณ์ในหมากรุก และในขณะที่ NNs ไม่ไร้ประโยชน์พวกมันก็ช้าเกินไป
BlindKungFuMaster

3
ทำไม MCTS ถึงไร้ประโยชน์อย่างแน่นอน มันสมเหตุสมผลมากที่จะเริ่มจากตำแหน่งกระดานปัจจุบันรันเกม 1,000 เกมที่มีความลึกของโหนด 5 และดูว่าโหนดใดมีโอกาสดีกว่า นี่คล้ายกับสิ่งที่คุณทำเมื่อคุณดูสถิติการเคลื่อนไหวในฐานข้อมูลและดูว่าหลังจากที่ 14 Kg4 สีขาวชนะ 25% แต่ด้วย 14 Rb2 มันชนะด้วย 45% คุณมีบทพิสูจน์ของวลีที่ไร้ประโยชน์ทั้งหมดหรือไม่
Salvador Dali

2
MCTS ไม่ได้เกี่ยวกับการสุ่ม แต่เกี่ยวกับการจำลอง หนังสือเบื้องต้นเบื้องต้นเกี่ยวกับ MC แสดงตัวอย่างของการสุ่มเพื่อแสดงจุดนั้น คุณสามารถเล่นตำแหน่งที่คมชัดได้หลายครั้งด้วยความลึกของโหนดที่ 6 ซึ่งเร็วมาก (และยังคงไว้วางใจได้) และจะช่วยให้คุณประเมินการเคลื่อนไหวที่ดีขึ้นโดยประมาณ
Salvador Dali

1
งบของฉันไม่ได้เป็นตัวหนาพวกเขาเป็นกระแสหลัก เพียงอ่านไซต์การเขียนโปรแกรมหมากรุกคุณจะพบข้อโต้แย้งของฉันมากกว่าหรือน้อยกว่า MCTS เป็นที่รู้จักมานานกว่าทศวรรษและในเกมหมากรุกอื่น ๆ ก็ใช้งานได้ดีกว่า ในทางกลับกันฉันไม่คิดว่าคำพูดของคุณมีพื้นฐานมาจากอะไรมากกว่าความรู้สึกทางเดินดังนั้นนี่จะเป็นความคิดเห็นสุดท้ายของฉัน
BlindKungFuMaster

5

มีโครงการที่เรียกว่าspawkfishซึ่งพยายามทำสิ่งนี้ มันเป็นเอ็นจิ้นพื้นฐานที่ใช้เครือข่ายประสาทซึ่งมีจุดประสงค์ "คือการสำรวจว่าความก้าวหน้าล่าสุดของคอมพิวเตอร์ Go สามารถนำไปใช้กับโลกของหมากรุกคอมพิวเตอร์ได้"

มันเป็นโครงการเล็กและเครื่องยนต์ยังค่อนข้างอ่อนแอ การเล่นมันเป็นเรื่องที่น่าสนใจเพราะการเล่นในตำแหน่งที่ดีกว่ากลยุทธ์


2
คุณไม่ได้ล้อเล่นกับประโยคสุดท้ายนั้น ฉันเพิ่งเล่นเกมสองสามนัดกับมันและแต่ละเกมก็จบลงในระดับที่ค่อนข้างดีเพียงเพื่อที่จะเห็นปลาหิมะวางวัตถุในทันใด แปลก.
ETD

เมื่อคุณตอบข้อมูลใหม่เกี่ยวกับ AI ที่ออกมาดูเหมือนว่าจะเกิดขึ้น ฉันได้อัปเดตคำถามเพื่อเชื่อมโยงไปยังข่าวหากคุณสนใจ
บาท

ดูเหมือนว่าเว็บไซต์ของ spawkfish จะหายไป ...
hkBst

4

AI ที่คล้ายคลึงกันสามารถชนะที่หมากรุกได้หรือไม่? มันสามารถบรรลุการฝึกอบรมด้วยตนเองที่บริสุทธิ์ได้หรือไม่?

คำตอบสั้น ๆ คือ "ไม่!"

หมากรุกและการเดินทางมีความแตกต่างอย่างสิ้นเชิงในความเรียบง่ายเชิงสัมพันธ์และความซับซ้อนที่สัมพันธ์กันซึ่งมาจากรูปทรงเรขาคณิตและวิธีการชนะของคุณ เหล่านี้รวมกันเพื่อสร้างโปรแกรมที่ดีที่หนึ่งที่ไร้ประโยชน์อื่น ๆ

ในหมากรุกที่คุณชนะโดยการตรวจสอบฝ่ายตรงข้ามคะแนนจะไม่ถูกนับ แน่นอนว่าฝ่ายตรงข้ามที่มีเหตุผลมักจะลาออกก่อนที่คุณจะส่งมอบรุกฆาต แต่หลักการเดียวกัน ในระหว่างการเดินทางคุณจะชนะโดยมีคะแนนมากขึ้นในตอนท้ายของเกม ถ้าฉันมีราชาและราชินีและคุณมีราชาโกงและจำนำ แต่คุณได้สร้างป้อมปราการแล้วมันไม่สำคัญว่าฉันจะมี 9 คะแนนสำหรับราชินีและคุณมีเพียง 6 คะแนนสำหรับโกงและจำนำของคุณ เกมดังกล่าวเสมอ

สิ่งนี้ทำให้ความแตกต่างพื้นฐานในความซับซ้อนระหว่างหมากรุกและไป ในระหว่างการเดินทางคุณสามารถทำคะแนนและคุณจะรู้ว่าใครเป็นผู้ชนะ ในหมากรุกวิธีเดียวที่คุณจะรู้ว่าใครจะชนะคือการคำนวณที่บริสุทธิ์ ในแง่นี้หมากรุกมีความซับซ้อนมากกว่าไป

ในเวลาเดียวกันเนื่องจากรูปทรงเรขาคณิตของทั้งสองเกมมีความเป็นไปได้ที่จะเกิดความเป็นไปได้มากกว่าหมากรุก ในแง่นี้ไปซับซ้อนกว่าหมากรุกมาก

โปรแกรมหมากรุกทำงานโดยการคำนวณแรงเดรัจฉานของการเคลื่อนย้ายที่เป็นไปได้ทั้งหมดจนถึงระดับความลึกที่กำหนดความแข็งแกร่งของมัน โปรแกรม Go ไม่สามารถทำงานได้เช่นนี้และเล่นสิ่งที่สูงกว่าระดับเริ่มต้นไป

เป้าหมายขั้นพื้นฐานของการไปคือการควบคุมดินแดนมากกว่าคู่ต่อสู้ของคุณ ในตอนท้ายของเกมมันไม่สำคัญว่าความแตกต่างคือ 1 หินหรือ 100 ก้อนหินทั้งคู่จะเป็นผู้ชนะ ทุกครั้งที่คุณวางก้อนหินคุณทำสองสิ่ง คุณเพิ่มดินแดนของคุณทั้งที่มีศักยภาพหรือที่เกิดขึ้นจริงและคุณลดคู่ต่อสู้ของคุณ

บางครั้งเมื่อเป็นการเพิ่มขึ้นหรือลดลงจริงในดินแดนมันเป็นเรื่องง่ายที่จะคำนวณมูลค่าของการย้าย แต่เมื่อมันมีศักยภาพมันเป็นเรื่องยากมากที่จะประเมิน ในฐานะผู้เล่นที่อ่อนแอฉันเข้าใจว่า "จริง" ดีกว่า "ศักยภาพ" และผู้เล่นที่แข็งแกร่งจะเอาชนะฉันได้โดยการสร้างอาณาเขตที่มีศักยภาพมากขึ้นในศูนย์ในขณะที่ฉันสร้างอาณาเขตจริงที่เล็กกว่าบนขอบและมุม ผู้เล่นที่แข็งแกร่งจะได้สร้างความสามารถในการตัดสินผ่านสัญชาตญาณและความรู้สึกจากการเล่นเกมจำนวนมากและตระหนักถึงวิธีการสร้างดินแดนที่มีศักยภาพ

ก่อนหน้านี้ฉันบอกว่าทุกครั้งที่ฉันวางก้อนหินมันจะเพิ่มพื้นที่ของฉัน (จริงหรือมีศักยภาพ) และลดจำนวนคู่ต่อสู้ของฉัน (จริง ๆ แล้วถ้ามันเป็นการเคลื่อนไหวที่โง่เขลามันจะทำสิ่งที่ตรงกันข้าม!) ในตำแหน่งที่กำหนดไม่ย้ายทั้งหมดจะเหมือนกัน หินที่วางในตำแหน่งหนึ่งอาจมีค่ามากกว่าหรือน้อยกว่าหินที่วางอยู่ในตำแหน่งอื่น

โดยทั่วไปแล้วในเกมจะมี "การต่อสู้" เล็ก ๆ ที่ผู้เล่นวางหินใกล้กันทำเครื่องหมายอาณาเขตและ จำกัด คู่แข่งของตน ในขณะเดียวกันก็มีความเป็นไปได้ที่จะเริ่มทำการปักหลักอาณาเขตในอีกส่วนหนึ่งของกระดานหรือเปลี่ยนไปต่อสู้ที่อื่นที่ผู้เล่นทั้งสองมีหินอยู่แล้ว

สิ่งที่สำคัญมากในสถานการณ์เหล่านี้คือการรู้ว่าเมื่อใดควรหยุดการต่อสู้หนึ่งครั้งเนื่องจากผลกำไรที่อาจเกิดขึ้นได้ลดลงและเปลี่ยนไปใช้การต่อสู้อื่นหรืออาจบุกเข้าสู่ดินแดนบริสุทธิ์ บางครั้งสิ่งนี้ขึ้นอยู่กับการคำนวณที่ยาก แต่บ่อยครั้งมันมีความคลุมเครือมากกว่าและไม่ได้รับการคำนวณ ในฐานะผู้เล่นที่อ่อนแอนี่คือที่ที่ผู้จ่ายเงินที่แข็งแกร่งจะบดขยี้ฉันทุกครั้ง

สิ่งที่คอมพิวเตอร์ทำในสถานการณ์เหล่านี้ใช้วิธีการความน่าจะเป็นเพื่อสร้างคะแนนที่คาดหวังสำหรับการย้ายโดยเฉพาะ บางครั้งมูลค่าที่แท้จริงจะกลายเป็นน้อยกว่าเล็กน้อยบางครั้งก็มากขึ้นเล็กน้อย แต่ในระยะยาวมันจะยิ่งมากขึ้นหรือน้อยลง มันจะทำการเก็บย้ายไปพร้อมกับมูลค่าที่คาดหวังสูงสุดด้วยความคาดหวังว่าข้อผิดพลาดเล็ก ๆ น้อย ๆ ของเกมจะถูกยกเลิกและกลยุทธ์ของมันจะชนะ

นี่ไม่ใช่กลยุทธ์ที่ฟังดูคุ้นเคยกับผู้เล่นหมากรุกและไม่ใช่กลยุทธ์ที่จะใช้เล่นหมากรุก มันเป็นสิ่งที่ฟังดูคุ้นหูสำหรับใครก็ตามที่ติดตามสิ่งที่เกิดขึ้นในตลาดหุ้น มันฟังดูคล้ายกับสิ่งที่เรียกว่า "การซื้อขายความถี่สูง" ซึ่งคอมพิวเตอร์จะทำการเดิมพันเล็ก ๆ เป็นพัน ๆ หรือเพียงแค่เสนอการเดิมพันทุกวินาทีเพื่อ "นิกเกิลและค่าเล็กน้อย" ในตลาด

ตลาดการเงินนั้นถูกครอบงำโดยการค้าอัลกอริธึมประเภทนี้ซึ่งแสดงให้เห็นว่าโปรแกรมประเภทนี้ได้รับชัยชนะในพื้นที่ที่มีกำไรมากกว่าเกมกระดาน


4
การซื้อขายด้วยความถี่สูงนั้นไม่มีอะไรที่เหมือนกับการเล่น อัลกอริทึมที่แตกต่างกันโดยสิ้นเชิง afaik นอกจากนี้สิ่งที่น่าสนใจมากมายในคำตอบของคุณ แต่เป็นการยากที่จะเห็นประเด็นหลักอาจเพิ่ม TL; DR ;-)
BlindKungFuMaster

@BlindKungFuMaster หลักการพื้นฐานที่อยู่เบื้องหลัง HFT และ AlphaGo เป็นความน่าจะเป็น กำไรที่คาดหวังจาก "การเคลื่อนไหว" นี้คือ x% ในระยะยาวการสะสมของการเคลื่อนไหว / การเดิมพันดังกล่าวจะชนะเกมของ AlphaGo หรือสร้างรายได้ให้กับผู้ค้า HFT อย่างไรก็ตามทุก ๆ ตอนจะมี "การชนกันของแฟลช" หรือ "การย้ายที่น่าแปลกใจ" จาก Lee Se-dol ซึ่งเปลี่ยนให้ชนะ / กำไรเป็นการสูญเสีย ที่ไม่มีทางทำให้โปรแกรมของมัน ไม่มีการตั้งโปรแกรมให้ค้นหาการเคลื่อนไหวที่ดีที่สุดในแต่ละครั้ง มันเป็นเหมือนวิธีแก้ปัญหาหลอกเพื่อเดินทางปัญหาพนักงานขายที่พยายามที่จะได้รับภายใน 5% ของที่ดีที่สุด
Brian Towers

เมื่อคุณตอบข้อมูลใหม่เกี่ยวกับ AI ที่ออกมาดูเหมือนว่าจะเกิดขึ้น ฉันได้อัปเดตคำถามเพื่อเชื่อมโยงไปยังข่าวหากคุณสนใจ
บาท

1
@thb ฉันเชื่อว่าคำตอบนี้ค่อนข้างล้าสมัยเนื่องจากความสำเร็จใหม่ของ AlphaZero เช่นเดียวกับในarxiv.org/abs/1712.01815
Mark S.

@ จะไม่ทำไม อย่าตัดสินคนอื่นด้วยมาตรฐานน้ำตื้นของคุณเอง
Brian Towers

4

(ใครก็ตามที่ต้องการการสนทนาเชิงลึกสำหรับ AlphaGo สามารถดูโพสต์ของฉัน)

คำตอบสั้น ๆ : ไม่

คำตอบยาว :

ก่อนอื่นเราต้องเข้าใจว่าเพราะเหตุใด Google จึงไม่ใช้ alpha-beta ใน AlphaGo Stockfish และ Komodo (และเครื่องมือหมากรุกทั้งหมด) มีอัลฟ่าเบต้าทำไม Alpha ถึงไม่

เหตุผล : ไม่มีวิธีที่ง่ายและราคาถูกที่สามารถประเมินตำแหน่ง Go ได้อย่างถูกต้อง

ในหมากรุกเราสามารถนับวัสดุได้ตลอดเวลาซึ่งเป็นวิธีที่มีประสิทธิภาพมากในการประเมินตำแหน่งแบบคงที่ แม้ว่าจะไม่สมบูรณ์แบบมันเร็วมากและเป็นพร็อกซีที่ดีมากสำหรับหมากรุก

การค้นหาพื้นที่รัฐด้วย Monte-Carlo เป็นวิธีการที่ด้อยกว่าถึงอัลฟาเบต้า Google จะใช้อัลฟ่าเบต้าหากทำได้ แต่ไม่สามารถทำได้ ดังนั้นพวกเขาถูกบังคับให้ใช้สิ่งที่ช้ากว่ามาก

เอ็นจิ้นหมากรุกจะไม่เล่นได้ดีกับ Monte-Carlo


ถึงเวลาคิดใหม่หรืออาจจะยังไม่ถึงตอนนี้?
Evargalo

3

ฉันไม่เห็นด้วยกับคำตอบอื่น ๆ ฉันเป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานอย่างมืออาชีพในด้านปัญญาประดิษฐ์และยังเป็นผู้สมัครหลักในหมากรุกและ 3 dan ใน igo

ฉันคิดว่ามันไม่ชัดเจนในเวลานี้ว่าวิธีการของ Deep Mind สามารถนำไปใช้กับหมากรุกได้หรือไม่ แต่ฉันคิดว่ามันเป็นไปได้

ปัจจุบันโปรแกรมการเล่นหมากรุกชั้นนำกำลังพึ่งพาการวิเคราะห์พฤติกรรมและพยายามใช้สถาปัตยกรรม AlphaGo มากขึ้นสำหรับการเล่นหมากรุก

คุณลักษณะทางสถาปัตยกรรมที่สำคัญอย่างหนึ่งของ AlphaGo ที่จะต้องแก้ไขคือวิธีการระบุคีย์สแควร์ (หรือแผนที่ความร้อน) ซึ่งมีลักษณะเฉพาะกับเกมที่เหมือนไอโกะและไม่สามารถใช้กับหมากรุกได้โดยตรง บางส่วนของวิธีการนี้จะต้องได้รับการพัฒนาเพื่อให้สถาปัตยกรรม AlphaGo เกี่ยวข้องกับหมากรุก ตัวอย่างเช่นเราอาจมีแนวคิดของ "ชิ้นส่วนสำคัญ" แทนที่จะเป็นช่องสี่เหลี่ยมสำคัญ

ฉันคิดว่าอาร์กิวเมนต์ที่สถาปัตยกรรม AlphaGo นั้นไม่เกี่ยวข้องกับหมากรุกเพราะหมากรุกนั้นมียุทธวิธีมากกว่านั้นไม่ใช่ข้อเรียกร้องที่ดีมากเพราะในที่สุดทั้งสองมีต้นไม้ค้นหาที่มีรูปร่างคล้ายกันมากพอที่ AlphaGo จะสามารถดัดแปลงเป็นหมากรุกได้


ฉันให้ +1 คุณเนื่องจากการอ้างสิทธิ์ของคุณอาจถูกต้อง แต่เราไม่ทราบแน่ชัดจนกว่าจะมีคนเผยแพร่เอกสาร
SmallChess

เอ่อ? กระดาษมีอยู่แล้วดังที่ Brian Towers ชี้ให้เห็น คำตอบคือใช่
thermomagnetic ข้น boson

ดูเหมือนว่าฉันพูดถูก
เซซิลเดอเวียร์

@CecilDe ไม่เห็นด้วยกับคำตอบอื่น ๆ พวกเขา 2 คนชี้ให้เห็นคำตอบที่ถูกต้อง และไม่ใช่โดยการระบุว่ามันไม่ชัดเจนในเวลานี้ในขณะที่มันชัดเจนว่าคำตอบนั้นคือใช่ (ไม่ใช่อาจ)
thermomagnetic ข้น boson

3

คำตอบคือใช่! Google เพิ่งพิสูจน์สิ่งนี้เมื่อวานนี้เมื่อ AlphaZero เอาชนะโปรแกรมหมากรุกที่ดีที่สุดโดยใช้ความรู้เฉพาะเกี่ยวกับกฎและการฝึกอบรมด้วยตนเองอย่างแท้จริงโดยไม่ใช้ความรู้ด้านหมากรุกของมนุษย์ คำตอบที่ยอมรับนั้นผิด ลิงค์ไปยังบทความอยู่ที่นี่: ลิงค์


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.