หมากรุก AI ที่ฝึกฝนตัวเองอย่างหมดจด


46

ตราบเท่าที่ฉันเข้าใจปรากฏว่าก่อนที่จะย้ายซอฟต์แวร์หมากรุกที่แข็งแกร่งทั้งหมด

  1. ตรวจสอบตำแหน่งในอนาคตที่เป็นไปได้หลายพันหรือหลายตำแหน่ง
  2. ประเมินแต่ละตำแหน่งในอนาคตตามฮิวริสติกบางอย่างที่เรียกว่าฟังก์ชันการประเมิน
  3. แยกประเมินแต่ละตำแหน่งในอนาคตสำหรับความสงบเพื่อตัดสินใจว่าจะสำรวจตจากตำแหน่ง;
  4. เลือกจากการเคลื่อนไหวที่มีอยู่โดยminimax; และ
  5. ใช้หนังสือเปิด

จนถึงตอนนี้ดีมาก อย่างไรก็ตามจุดแข็งของโปรแกรมหมากรุกนั้นส่วนใหญ่จะขึ้นอยู่กับคุณภาพของการประเมินผลและการวิเคราะห์พฤติกรรมที่ไม่หยุดนิ่งและในหนังสือเปิดตัวซึ่งจากมุมมองของคอมพิวเตอร์ก็เป็นอีกหนึ่งวิธีการแก้ปัญหา เห็นได้ชัดว่าโปรแกรมหมากรุกนี้มีความรู้เกี่ยวกับเกมมากพอ ๆ กับมนุษย์ที่สร้างฮิวริสติก โปรแกรมดูเหมือนจะไม่มีข้อมูลเชิงลึกของตนเอง

มีใครเคยเขียนโปรแกรมหมากรุกที่มีข้อมูลเชิงลึกของตนเองหรือไม่? ที่เรียนรู้เกมด้วยตัวเอง? นั่นฝึกตัวเองเหรอ? โปรแกรมดังกล่าวจะได้รับกฎของเกมและแน่นอนว่าจะได้รับการจัดเตรียมด้วยโครงสร้างพื้นฐานขั้นต่ำแบบดิบและโครงสร้างพื้นฐานแบบนิ่งและจะสามารถรับรู้และดำเนินคดีกับคู่สมรสที่ถูกบังคับได้หากพบ อย่างไรก็ตามจะไม่มีการวิเคราะห์พฤติกรรม ตัวอย่างเช่นมันจะไม่ถูกบอกให้เปิดเกมไปที่ตรงกลางหรือไม่ชอบโกงกับอัศวินหรืออะไรคือการป้องกันของซิซิลี มันจะต้องอนุมานหลักการดังกล่าว (หรืออาจเป็นไปได้ที่จะค้นพบหลักการที่ดีกว่า) ด้วยตัวเอง

ในรูปแบบที่บริสุทธิ์โปรแกรมดังกล่าวจะไม่ถูกจัดเตรียมไว้สำหรับเกมต้นแบบเพื่อการศึกษา แต่มีเพียงเกมของตัวเองเท่านั้นที่เล่นกับตัวเอง เพียงครั้งเดียวที่ฝึกฝนตัวเองอย่างเต็มที่มันจะถูกปลดปล่อยออกมาจากการแข่งขันของมนุษย์

หมากรุกบริสุทธิ์นั้นมีอยู่จริงหรือไม่? เคยมี autodidact หมากรุกเชิงกลมาแล้วหรือไม่? อันที่จริงชาวเติร์กสามารถสอนตัวเองได้หรือไม่?

ที่นี่ดูเหมือนจะเป็นช่วงสั้น ๆ ของ AI หมากรุกบริสุทธิ์ที่ล้มเหลว

( คำถามที่เกี่ยวข้องเป็นรูปธรรมปรากฏขึ้นก่อนหน้านี้ในเว็บไซต์นี้เกี่ยวกับการศึกษาคอมพิวเตอร์ของการเปิดช่องหมากรุก)

UPDATE

คำถามนี้ได้รับการตอบสนองโดยคำตอบที่ต่างกันสามข้อซึ่งให้ความกระจ่างในขณะที่เขียนนี้โดย @WesFreeman, @GregE และ @Landei เราขอแนะนำทั้งสามอย่างนี้และฉันจะรู้สึกผิดเมื่อตามนโยบายของเว็บไซต์ฉันยอมรับอย่างเป็นทางการในการยกเว้นผู้อื่น ให้ฉันที่นี่ขอบคุณและแสดงความขอบคุณของฉันทั้งสาม

คำถามที่ต้องการความกะทัดรัด การตอบกลับคำตอบอาจทำงานนานขึ้น ผู้อ่านที่สนใจจึงสามารถข้ามจากที่นี่ไปที่คำตอบได้โดยตรงและหากยังสนใจสามารถกลับไปอ่านการอัปเดตที่ยาวกว่าซึ่งตามมา

เมื่อฉันถามคำถามฉันนึกถึงสิ่งต่อไปนี้

สมมติว่าเป็นหมู่บ้านสมมุติในเขตชานเมืองของแชงกรี - ลาที่ซึ่งผู้คนไม่เคยได้ยินเรื่องหมากรุกมาก่อน ในระหว่างที่คุณเยี่ยมชมช่วงสั้น ๆ คุณจะสอนกฎของเกมให้กับผู้เฒ่า แต่ไม่เคยสอนพวกเขาในหลักการของเกม ผู้เฒ่าสองคนเล่นเกมในฐานะผู้อาวุโสที่เหลือในขณะที่คุณ (ไม่ต้องการขัดขวางการเล่นโดยการฆ่าคนโดย kibitzing) จำกัดความเห็นของคุณต่อคำถามของกฎ ไม่มีการชันสูตรพลิกศพตามเกมและไม่เล่นหมากรุกหรือพูดคุยอีกครั้งในขณะที่คุณยังคงอยู่ในแชงกรี - ลา อย่างไรก็ตามเมื่อคุณจากไปไม่กลับมาคุณวางหมากรุกไว้ข้างหลัง

ในกรณีที่คุณไม่อยู่ผู้เฒ่าผู้แก่สอนเกมให้ผู้คนฟัง บางคนเล่นเล็กน้อยในช่วงเวลาว่างไม่กี่คนที่มีความกระตือรือร้นเพิ่มขึ้นซึ่งเป็นผู้ออกแบบชุดหมากรุกของตนเอง

อาจไม่ชัดเจนในทันทีที่ชาวบ้านคนนั้นรู้ว่าเกมโกงดีกว่าอัศวิน แต่ผู้คนก็ยังคงค่อยๆพัฒนาจุดแข็งสัมพัทธ์ของผู้เล่นหมากรุกไปเล่นเกมหลายเกม ในทำนองเดียวกันอาจไม่ชัดเจนสำหรับพวกเขาในทันทีว่า 1. a4 เป็นการเปิดที่ไม่ดีพวกเขาทำได้ แต่ลองและพิจารณาผลลัพธ์

ในที่สุดความเข้าใจของชาวบ้านเกี่ยวกับเกมในที่สุดจะมาบรรจบกันกับโลกภายนอก? หากไม่มีหนังสือเปิดพวกเขาจะพัฒนาช่องเปิดนวนิยายของตนเองได้ไหม? แน่นอนว่าจะไม่มีใครคาดหวังว่าการเปิดของชาวบ้านจะดีมากในตอนแรก แต่ด้วยความเหงาสองสามศตวรรษชาวบ้านอาจพัฒนาเพลงเปิดที่มีเกียรติสำหรับทุกสิ่งที่ฉันรู้

ช่องว่างใด ๆ ของพวกเขาจะพัฒนาขึ้นอย่างอิสระพิสูจน์ให้เห็นถึงความน่าสนใจต่อโลกภายนอกเมื่อนักเดินทางคนต่อไปผ่านไปเพื่อจดบันทึกพวกเขา 200 ปีต่อมา? อาจ Shangri-La ให้โลกใหม่, นวนิยาย, Shangri-La Defense?

ถ้าเป็นเช่นนั้นด้วยความเคารพต่อคำถามดั้งเดิมของฉันเกี่ยวกับหมากรุก AI สิ่งที่ฉันมีอยู่ในใจนั้นมากไปหรือน้อยกว่านี้: หมากรุก AI สามารถทำซ้ำความคืบหน้าของหมากรุกของชาวบ้านในชานชานฉีได้หรือไม่

เมื่อพิจารณาจากเรื่องราวของ Sussman ในคำตอบของ @ Landei ด้านล่างเป็นความจริงที่ชาวบ้านของฉันจะนำความคิดบางอย่างมาสู่เกม ยกตัวอย่างเช่นพวกเขาจะนำความเข้าใจว่าการมีสิ่งที่มีประโยชน์มากกว่าปกติจะดีกว่าที่จะมีน้อยกว่าดังนั้นการจับตัวหมากรุกของคู่ต่อสู้จึงน่าจะดีกว่าที่จะทรมานการจับกุมตัวเอง ผู้คนในแชงกรี - ลาแห่งดินแดนนั้นเป็นคำถามเกี่ยวกับวรรณคดี แต่ใคร ๆ ก็สามารถสันนิษฐานได้ว่าพวกเขาจะจำตำแหน่งที่ได้รับคำสั่งให้มีพื้นที่ว่างมากกว่าตำแหน่งที่ได้รับคำสั่งน้อยกว่า และสามเณรที่สดใสเมื่อเคยแสดงชุดหมากรุกและได้รับคำแนะนำในกฎของเกมสามารถสรุปได้ว่าราชินีน่าจะดีกว่าการจำนำเพียงแค่ว่าราชินีมีการเคลื่อนไหวมากถึง 27 ครั้ง

คำถามของฉันจึงไม่จำเป็นต้องตีความว่าเป็นการชี้ขาดอย่างสมบูรณ์คำสั่งแบบซัสแมนจากการนำความรู้ทุกชนิดไปยังกระดานหมากรุก แต่เป็นการบ่งบอกถึงคำสั่งห้ามทั่วไปเกี่ยวกับความรู้เฉพาะทางเกี่ยวกับหมากรุก หลังจากทั้งหมด (ไม่คำนึงถึงเรื่องวิวัฒนาการของกฎของเกมมานานแล้ว) ในบางครั้งในอดีตที่ผ่านมามีการเล่นเกมหมากรุกครั้งแรก บางทีผู้เล่นคนแรกเปิด 1. a4; แต่ในที่สุดเขาก็เรียนรู้ได้ดีขึ้นและสอนในสิ่งที่เขาเรียนรู้กับลูกศิษย์ของเขา ใครจะเรียนรู้มากขึ้นและสอนมากขึ้นเรื่อย ๆ เพื่อให้เราคาสปารอฟ

AI อาจทำอะไรแบบนั้นไม่ได้ในหลายสัปดาห์แทนที่จะเป็นศตวรรษใช่หรือไม่

เพลโตคงไม่เชื่อฉันคิด ฮูมจะมองโลกในแง่ดีมากกว่า แต่คำถามไม่ได้อยู่ที่ปรัชญาเพียงอย่างเดียว ตอนนี้เรามีคอมพิวเตอร์อิเล็กทรอนิกส์ที่ใช้ทดสอบข้อเสนอและฉันก็สงสัยว่าสถานะของศิลปะ AI นั้นคืออะไร ไอเอสหมากรุกที่ดีที่สุดในปัจจุบันดูเหมือนจะเป็นระบบผู้เชี่ยวชาญที่ไม่ฉลาดที่เอาชนะทุกคนได้ในขณะที่ไม่มีอะไรจะหยั่งรู้ ฉันสงสัยว่า AI ที่กว้างขึ้นเล็กน้อยซึ่งในบางแง่มุมคิดเกี่ยวกับหมากรุกจริง ๆ หรือไม่นั้นประสบความสำเร็จอย่างมากในการสอนเกม

ฉันรวบรวมว่าคำตอบคือไม่อาจไม่


4
นี่เป็นหนึ่งในคำถามที่ดีกว่าในเว็บไซต์นี้จริงๆ
prusswan

5
ดูเหมือนว่าคำตอบคือใช่แล้วเนื่องจาก DeepMind เพิ่งเปิดตัวงานวิจัยเกี่ยวกับหมากรุก AI ที่ทันสมัยพวกเขาได้ฝึกฝนตั้งแต่เริ่มต้น (เล่นด้วยตนเองเท่านั้นไม่มีเกมอ้างอิง) arxiv.org/pdf/1712.01815.pdf
Lalaland

1
การเพิ่มความคิดเห็นของ @Lalaland หลังจากการฝึกอบรมสำหรับฉันคิดว่า 10 ชั่วโมงมันจะทำให้สต็อคฟิชสมบูรณ์ (ไม่แน่ใจว่าเป็นเวอร์ชั่นใด) ราวกับว่าสต็อกเป็นมือใหม่ ค่อนข้างไม่เคยได้ยินจากเกมเครื่องยนต์และเครื่องยนต์ ดูเหมือนว่า alphago จะชอบเล่นในรูปแบบของ Tal
Ariana

2
"AI จะทำอะไรแบบนี้ในเวลาไม่กี่สัปดาห์ไม่ใช่ศตวรรษใช่มั้ย" คุณพูดถูก ... มันใช้เวลาหลายชั่วโมง
user230452

1
ผู้เล่นสองสามคนเช่น Capablanca ควรจะคิดออกจากเกมโดยดูว่าเล่นครั้งเดียว และจำไว้ว่าอัลฟ่าซีโร่ไม่มีอะไรจะคิด
Philip Roe

คำตอบ:


26

คุณมีจุดที่น่าสนใจมาก ฉันมีประสบการณ์เล็กน้อยในการวิจัย AI (วิทยาศาสตรมหาบัณฑิตของฉันอยู่ในสาขานี้) ดังนั้นฉันคิดว่าฉันสามารถให้ข้อมูลเชิงลึกบางอย่าง

ค้นหาซ้ำในพื้นที่

อย่างแรกการวิจัยในสาขานี้กำลังเกิดขึ้นอย่างแน่นอน - การค้นหา "วิวัฒนาการแนวทางหมากรุก" กลับมาพร้อมกับบทความนี้ตั้งแต่ปี 2544 ทำสิ่งที่คุณแนะนำให้ออกจากแนวทางขั้นต่ำ / สูงสุดและแก้ไขฟังก์ชันการประเมินเท่านั้น เป็นไปได้ที่จะขุดขึ้นมาอีกมากมายและฉันรู้ว่ามีหลายคนที่ทำงานในสาขานี้โดยทั่วไป

ความเป็นไปได้ทางทฤษฎี

ในความคิดของฉันสิ่งเดียวที่ จำกัด สำหรับการสร้างหมากรุกบริสุทธิ์ "" คือการคำนวณเวลา ไม่มีเหตุผลใดที่ AI จะไม่สามารถสร้างทฤษฎีขึ้นมาได้โดยใช้วิธีการปัจจุบัน

ปฏิบัติการ

มีปัญหาหลักสองประการในการใช้วิธีการวิวัฒนาการหรือพันธุกรรมในการพัฒนาฟังก์ชั่นหมากรุกฮิวริสติกประการแรกคือแม้ในขั้นพื้นฐานที่สุดฟังก์ชั่นแก้ปัญหาสำหรับหมากรุกมีความซับซ้อนอย่างมาก เรากำลังพูดถึงกฎหลายร้อยชิ้นการประเมินค่าชิ้นส่วน (ซึ่งอาจแตกต่างกันไปตามตำแหน่ง ฯลฯ ) การวิเคราะห์ตำแหน่ง ฯลฯ คุณต้องการภาษาคอมพิวเตอร์ที่ยืดหยุ่นเพื่ออธิบายกฎเหล่านี้และจากนั้นกฎเหล่านี้อาจถูกสร้างแบบสุ่ม กลายพันธุ์มีการผสมพันธุ์กัน ฯลฯ เป็นไปได้อย่างแน่นอน แต่ฉันเดาว่าคุณจะต้องจบด้วยชุดกฎที่ประกอบด้วยหน่วยงานหลายพัน นั่นเป็นกฎที่มีขนาดใหญ่มากที่พัฒนาขึ้นแบบไดนามิก

ปัญหาที่สองคือการประเมินกฎที่แก้ไขใหม่ของคุณคุณต้องเล่นเกมหมากรุกและดูว่าใครจะชนะ หากคุณต้องการทำสิ่งนี้ "ถูกต้อง" คุณจะต้องให้เวลากับผู้เล่นทั้งคู่ในการคิดสิ่งที่คล้ายกับความยาวเกมทั่วไป อย่างไรก็ตามการเล่นคู่ต่อสู้เพียงคนเดียวนั้นไม่เพียงพอคุณต้องการเล่นคู่ต่อสู้ที่แตกต่างกันมากมายและบางทีแม้แต่คู่ต่อสู้เดียวกันหลายต่อหลายครั้งก่อนที่คุณจะมั่นใจได้อย่างแท้จริงว่าคุณได้พบความแข็งแกร่งของเกมที่ดีขึ้น นี่อาจหมายถึงการเล่นสองสามร้อยเกมต่อคนในประชากรของคุณและนั่นทำให้คุณได้อัลกอริธึมรุ่นหนึ่ง

โดยทั่วไปแล้วด้วยวิธีการเหล่านี้คุณจะต้องมองอย่างน้อยหลายร้อยชั่วอายุคนหรือด้วยฟังก์ชั่นที่ซับซ้อนเช่นหมากรุกฮิวริสติกหลายแสนคน (หรือแม้กระทั่งหลายล้านคน) คณิตศาสตร์อย่างรวดเร็วบางอย่างควรโน้มน้าวให้คุณรู้ว่าคุณต้องใช้เวลา CPU หลายพันชั่วโมงสำหรับคนรุ่นเดียวหรือแม้แต่ปรับขนาดฟาร์มเซิร์ฟเวอร์ที่มีขนาดใหญ่คุณอาจต้องใช้เวลาหลายปีในการพัฒนา คุณพูดถึงในการปรับปรุงของคุณ

ในตอนท้ายของเวลานั้นคุณจะมีอัลกอริทึมที่น่าสนใจซึ่งอาจมีข้อมูลเชิงลึกมากมายในเกมที่ไม่เคยถูกค้นพบมาก่อน เป็นการยากที่จะบอกว่าพวกเขาจะมีประโยชน์หรือแม้แต่มนุษย์เข้าใจได้ ทำไมกฎนี้ถึงมีอยู่? เนื่องจากมีเกมมากกว่าหลายพันเกมดูเหมือนว่าจะได้ผล

อนาคต

ฉันไม่สงสัยเลยว่าวิธีการเหล่านี้จะได้รับความนิยมมากขึ้นเมื่อพลังการประมวลผลเพิ่มขึ้น ขณะนี้เราอยู่ในจุดที่เครื่องมีเวลาในการคำนวณเพียงพอที่จะเอาชนะมนุษย์ (เกือบทั้งหมด) หากความฉลาดของมันถูกสร้างขึ้นอย่างระมัดระวังด้วยมือ ในเวลา 20 ปีเป็นไปได้มากที่โปรเซสเซอร์จะมีการเคลื่อนไหวอย่างต่อเนื่องจนการเคลื่อนไหวเพิ่มที่หนึ่งหรือสองในเชิงลึกไม่ได้ให้ประโยชน์กับเครื่อง "hard-coded" ที่เพียงพออีกต่อไป แต่ถูกโจมตีเป็นประจำด้วยการพัฒนา วิวัฒนาการหลายล้านชั่วโมงข้างหลังพวกเขา

อัปเดต 2018 พฤษภาคม

ดังที่ Robert Kaucher กล่าวถึงในความคิดเห็นด้านล่างข่าวล่าสุดสมควรได้รับการกล่าวถึงที่นี่ โดยเฉพาะโครงการ AlphaGo ของ Google ดูเหมือนจะเป็นแนวทางแรกที่ใช้ระบบ AI ที่ทำงานได้จริงสำหรับเกมประเภทนี้และในช่วงปลายปี 2560 มีการเรียกร้องให้ชนะเกม StockFish 2หลังจากได้รับการเสนองานใหม่


ขอขอบคุณ. ฉันสังเกตเห็นว่าเอกสารที่คุณเชื่อมโยงฝึกอบรม AI นั้นเทียบกับฝ่ายตรงข้ามที่ไม่ใช่มนุษย์และต่อมาต่อต้านซอฟต์แวร์หมากรุกที่ยังหลงเหลืออยู่ซึ่งไม่ใช่สิ่งที่คุณและฉันมีอยู่ในใจ นัก Platonist อย่างฉันจะไม่แปลกใจที่รู้ว่า AI และคุณกำลังคุยกันเป็นเรื่องที่เป็นไปไม่ได้ (เรารู้ว่ามันเป็นไปไม่ได้ในทางทฤษฎีเพราะหมากรุกสามารถแก้ไขได้ในทางทฤษฎีโดย minimax); แต่ไม่ว่าคำตอบที่น่าประหลาดใจฉันไม่ได้เป็นจุด ประเด็นก็คือถามว่า AI ทำสำเร็จตามที่เสนอหรือไม่ คำตอบดูเหมือนจะไม่
บาท

2
@thb ฉันคิดว่ามีการพยายาม AI จำนวนมากพอสมควรแม้ว่าคุณจะสามารถพิจารณาได้ว่า "ไม่สำเร็จ" ฉันสงสัยว่าความพยายามที่ประสบความสำเร็จอย่างมาก (วันนี้) อาจจะเล่นในระดับมือสมัครเล่นที่อ่อนแอมาก ความสำเร็จที่ยิ่งใหญ่ไม่ใช่แค่ในสายตาของสาธารณชน นอกจากนี้ฉันไม่คิดว่าการฝึกอบรมกับโปรแกรมที่มีอยู่และมนุษย์กำลังโกงต่อไป - เพียงแค่การเพิ่มประสิทธิภาพที่มีขนาดใหญ่มากแม้ว่ามันจะเปลี่ยนทิศทางของสไตล์การเล่นของ AI ที่กำลังพัฒนา
Daniel B

1
หากคุณสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับวิธีการ "บริสุทธิ์" คุณอาจจะมีโชคมากขึ้นในการค้นหาวิธีการ นี่เป็นวลีที่ใช้เมื่อไม่มีวิธีที่ดีในการวัดประสิทธิภาพภายนอก (เช่นเราไม่สามารถเล่นกับเครื่องมือหมากรุกอื่น ๆ ) ดังนั้นการฝึกอบรม AI ต้องพัฒนาโดยการเล่นเวอร์ชั่นต่าง ๆ ของตัวเอง มันใช้งานได้ดี แต่ใช้เวลานานกว่ามากซึ่งอาจเป็นเหตุผลว่าทำไมมันจึงเป็นวิธีการที่ถูกไล่ล่าน้อยกว่า
Daniel B

1
@DanielB AlphaZero เป็นเช่นนี้หรือไม่?
แฮร์รี่วีสลีย์

1
คุณอาจต้องการอัปเดตคำตอบของคุณ chess.com/news/view/…
Robert Kaucher

17

ฉันสงสัยว่าสิ่งที่คุณถามเกี่ยวกับจะจัดเป็นอัลกอริทึมทางพันธุกรรมบางอย่างหรือวิธีการวิวัฒนาการขั้นตอนวิธี ฉันสงสัยว่าไม่มีวิธีที่เป็นจริงในการออกแบบอัลกอริธึมโดยไม่ฝังความลำเอียงของมนุษย์ในระดับพื้นฐานเนื่องจากโปรแกรมเมอร์ยังคงต้องกำหนดคุณสมบัติคงที่ของตำแหน่ง (จำนวนวัสดุโครงสร้างจำนำคอมเพล็กซ์สี ฯลฯ ) ตามที่ AI จะจัดและเปรียบเทียบตำแหน่งจากเกมที่แตกต่างกัน หากคุณทำการค้นหาโดย Google เกี่ยวกับคำศัพท์อัลกอริทึมข้างต้นในบริบทของหมากรุกคุณจะพบผลลัพธ์จำนวนมาก แต่อาจมีเพียงเล็กน้อยในแง่ของการวิจัยอย่างจริงจังที่ใช้เพื่อสร้างไอเอไอที่ประสบความสำเร็จและแข่งขันได้จริง

ความจริงก็คือว่าเป็นผลมาจากกฎของมัวร์ตอนนี้คอมพิวเตอร์กลายเป็นเครื่องคำนวณที่ทรงพลังมากซึ่งวิธี AI ที่ซับซ้อนไม่เพียง แต่ไม่จำเป็นเท่านั้น (ในแง่ของการเล่นในระดับที่สูงกว่าคู่แข่งที่ดีที่สุดของมนุษย์) แต่ก็อาจเป็นไปได้ในทางต่อต้าน หมากรุกเป็นเกมประเภทหนึ่งที่มีพื้นที่ในการค้นหาค่อนข้างน้อยเนื่องจากมีการเคลื่อนไหวที่สมเหตุสมผลในตำแหน่งที่กำหนดและการมีอยู่ของการบังคับใช้ชุดค่าผสมทางยุทธวิธี (ประกอบด้วยลำดับของการตรวจสอบการจับชิ้นส่วนการคุกคามของคู่สมรส เป็นต้น) - วิธีการเดียรัจฉานบังคับที่มีการตัดต้นไม้การค้นหาแบบอนุรักษ์นิยมพร้อมกันนั้นเป็นวิธีที่ง่ายที่สุดและมีประสิทธิภาพที่สุด หากคุณคำนึงถึงความพร้อมใช้งานของตารางฤทธิ์และการเปิดหนังสือตรรกะของวิธีการนั้นจะเติบโตขึ้นเท่านั้น ฉันเข้าใจว่ามี ยังคงมีความสนใจในเชิงทฤษฎีและคุณค่าที่อาจเกิดขึ้นในประเภท AI นวนิยายที่คุณกำลังพูดถึง แต่ฉันคิดว่าหมากรุกเป็นเวทีที่ผิดที่จะพัฒนามัน ในทางกลับกันเกมอย่างโก (Go) ซึ่งมียุทธวิธีน้อยกว่าโดยธรรมชาติและครอบคลุมพื้นที่การค้นหาที่กว้างกว่าเดิมซึ่งทำให้วิธีการทำงานแบบไร้เดียงสาอาจเป็นทางเลือกที่ดีกว่าสำหรับการวิจัย AI ที่ล้ำสมัย


ฉันได้อัปเดตคำถาม AI ตามคำตอบของคุณแล้ว การอัปเดตนั้นไม่สั้นเมื่อคุณมีเวลาคุณสามารถตรวจสอบการอัปเดตตามขอบเขตที่คุณสนใจ
บาท

2
จะไม่มีความลำเอียงของมนุษย์เช่นนี้ เพียงแค่สร้างอัลกอริธึมแบบสุ่ม 1,000 ข้อที่สามารถเล่นหมากรุกแบบถูกกฎหมายเข้ากับอีกฝ่ายในทัวร์นาเมนต์จากนั้นนำ 20% อันดับแรกมาใช้การกลายพันธุ์และครอสโอเวอร์เพื่อสร้างคนรุ่นต่อไป ทำซ้ำในจำนวนประชากรสำหรับหลายรุ่นและคุณควรมีบางสิ่งบางอย่างที่ดีครึ่งทางในตอนท้าย ฟังก์ชั่นการออกกำลังกายที่จำเป็นเท่านั้นที่จะชนะ / แพ้
แสงสว่าง

15

ดูที่หน้าวิกิพีเดียในเกมการเล่นทั่วไป มันเป็นพื้นที่การวิจัยที่ใช้งานอยู่ มีการแข่งขัน GGP ประจำปีโดยมีโปรแกรมที่ให้กฎของเกมใหม่ลองคิดถึงมันซักพักแล้วเล่นเกมต่อกัน

หากคุณให้กฎของหมากรุกกับโปรแกรม GGP ฉันคิดว่าคุณจะพบว่ามันแข็งแกร่งกว่ามนุษย์เริ่มต้นและอ่อนแอกว่าโปรแกรมหมากรุกที่เขียนขึ้นโดยเฉพาะ


13

มันคุ้มค่า revisiting คำถามนี้ในแง่ของการที่ผ่านมาประสบความสำเร็จที่โดดเด่นของ AlphaZero กับ Stockfish 8 วิวัฒนาการเพิ่มเติมของโปรแกรม AlphaGoและ AlphaGo Zero ของ DeepMind นั้น AlphaZero จบด้วยคะแนนที่น่าทึ่งที่ +28 = 72 -0 เทียบกับหนึ่งในเครื่องมือหมากรุก "ดั้งเดิม" ที่แข็งแกร่งที่สุดในโลก

AlphaZero สอนตัวเองให้เล่นผ่านการเรียนรู้การเสริมแรงฝึกฝนสถาปัตยกรรมเครือข่ายนิวรัลผ่านชุดของเกมกับตัวเอง ตามกระดาษประกอบ :

  1. คุณลักษณะอินพุตอธิบายตำแหน่งและคุณสมบัติเอาต์พุตอธิบายการย้ายได้รับการจัดโครงสร้างเป็นชุดของระนาบ เช่นสถาปัตยกรรมเครือข่ายประสาทเทียมถูกจับคู่กับโครงสร้างตารางของคณะกรรมการ
  2. AlphaZero มาพร้อมกับความรู้ที่สมบูรณ์แบบของกฎของเกม สิ่งเหล่านี้จะถูกใช้ในช่วง MCTS เพื่อจำลองตำแหน่งที่เกิดจากลำดับของการเคลื่อนที่เพื่อตัดสินการยุติเกมและเพื่อให้คะแนนการจำลองใด ๆ ที่ไปถึงสถานะเทอร์มินัล
  3. ความรู้เกี่ยวกับกฎนี้ยังใช้เพื่อเข้ารหัสเครื่องบินอินพุต (เช่นการขว้างปาการทำซ้ำการไม่ทำ) และระนาบเอาท์พุท
  4. จำนวนการเคลื่อนไหวตามกฎหมายโดยทั่วไปจะใช้เพื่อลดเสียงรบกวนการสำรวจ (ดูด้านล่าง)
  5. เกมหมากรุกและโชกิเกินจำนวนขั้นสูงสุด (กำหนดโดยความยาวเกมทั่วไป) ถูกยกเลิกและกำหนดผลลัพธ์ที่ได้ เกมที่ถูกยกเลิกและทำประตูด้วยกฎของ Tromp-Taylor เช่นเดียวกับเกมก่อนหน้า (29)

AlphaZero ไม่ได้ใช้ความรู้ในรูปแบบของโดเมนใด ๆ นอกเหนือจากจุดที่ระบุไว้ข้างต้น

ฉันแน่ใจว่าหนึ่งสามารถเพิ่มคำถามเกี่ยวกับสิ่งที่ต้องการฮาร์ดแวร์ที่แตกต่างกันถูกนำมาใช้ - " AlphaZero ... ใช้เครื่องเดียวมี 4 TPUs . Stockfish ... เล่นในระดับ [มัน] แข็งแกร่งทักษะการใช้ 64 หัวข้อและขนาดกัญชา ของ 1GB " - แต่ในกรณีใด ๆ ผลลัพธ์ของ AlphaZero นั้นน่าทึ่งมากและในเส้นเลือดของ OP

บางทีการสนับสนุนเพิ่มเติมสำหรับความรู้เกี่ยวกับโดเมนเพียงเล็กน้อยเท่านั้นนอกเหนือจากการตีสต็อคฟิชในหมากรุก AlphaZero ยังฝึกฝนที่ shogi จนถึงจุดที่ชนะโปรแกรม Elmo และแน่นอนว่ามันล้ำหน้ากว่า AlphaGo Zero in Go .

นี่คือหนึ่งในเกมที่ต่อต้านสต็อคฟิชเบอร์ลินที่ความไม่สมดุลของเนื้อหาเป็นอัลฟาซีโร่ในที่สุดกับคู่บิชอปกับอัศวินและ 4 เบี้ยสำหรับสต็อกฟิชช์หลังจาก31.Qxc7นั้น ในตำแหน่งนั้นชิ้นส่วนทั้งหมดของ AlphaZero อยู่ในอันดับด้านหลังโดยมีโคนกลับไปที่ช่องสี่เหลี่ยมดั้งเดิม ในที่สุดหลังจากที่ราชินีออกมาชิ้นส่วนสีดำอย่างช้าๆซ้อมรบเพื่อรับเบี้ยสีขาวและนั่นคือผ้าม่าน

Stockfish - AlphaZero, 2017-12-04, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 OO 8. QE1 f6 9. Nc4 Rf7 10. a4 bf8 11. KH1 NC5 12. a5 NE6 13 Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26. Nxa5 BA6 27. Bxd4 Rxd4 28. Nc4 RD8 29. g3 H6 30. Qa5 Bc8 31. Qxc7 BH3 32. RG1 กข 7 33. Qe5 Qxe5 34. Nxe5 Ra7 35. Nc4 G5 36. RC1 BG7 37 NE5 RA8 38. Nf3 BB2 39. Rb1 Bc3 40 NG1 BD7 41. NE2 BD2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 BD2 45. RF1 RA2 46. h3 Bxe2 47. RF2 Bxf4 48. Rxe2 Be5 49. RF2 KG7 50 g4 BD4 51. RE2 Kf6 52. e5 + Bxe5 53. Kf3 Ra1 54. RF2 Re1 55 Kg2 + Bf4 56. c3 RC1 57. d4 Rxc3 58. dxc5 Rxc5 59 b4 RC3 60 h4 Ke5 61 . hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

11

ฉันคิดว่าเหตุผลหลักที่ทำให้การผลิต AI นั้นยากเนื่องจากพื้นที่ที่จำเป็นในการเก็บ "การฝึกอบรม" ให้มีประสิทธิภาพ

นอกจากนี้ (เพื่อเป็นการตอบสนองต่อความคิดเห็นการฝึกอบรมด้วยตนเองของคุณ) การฝึกอบรมด้วยตนเองสามารถเป็นอันตรายในขณะที่พยายามปรับปรุง AI - ฉันได้ทำการวิจัยกับนิ้วเท้าเปล่า (เป็นที่เข้าใจง่ายกว่า) และพบว่าทุกประเภท วิธีที่น่ากลัวที่จะชนะ (และฝึกฝนวิธีที่น่ากลัวเหล่านั้น) เพราะทั้งสองฝ่ายเล่นกันอย่างน่ากลัว มันใช้เวลานานกว่านั้นมากในการได้รับการฝึกฝนอย่างสมเหตุสมผลด้วยตนเองมากกว่าการฝึกซ้อมกับ AI ที่ดูดีไปข้างหน้าในโอเอกซ์

อย่างไรก็ตามฉันคิดว่ามันน่าสนใจที่จะเห็นไฮบริดที่ใช้ทั้งการค้นหาเชิงลึกและ "การฝึกอบรม" - ฐานข้อมูลตำแหน่งที่เก็บไว้สำหรับเกมกึ่งกลางบางประเภท (แทนที่จะเป็นแค่เกม endgame และช่องเปิด) มันต้องการพื้นที่มาก

บางทีคุณอาจคิดว่าวิธี AI แบบ "ของจริง" มากกว่าที่จะเรียนรู้แนวคิดเชิงตำแหน่งมากกว่าตำแหน่งชนะ / แพ้ / วาด แต่ฉันไม่คิดว่ามันจะมีประสิทธิภาพมาก (เทียบกับเครื่องยนต์ที่แข็งแกร่ง)


คำตอบคือชื่นชม สิ่งที่ฉันเชื่อว่าฉันมีอยู่ในใจคือ AI ที่ (a) มีความสามารถขั้นต่ำ แต่ (b) ขาดฟังก์ชั่นการประเมินที่กำหนดไว้ล่วงหน้า AI เช่นนี้จำเป็นต้องแก้ปัญหาเกมเล็ก ๆ ในเกม Tic Tac Toe ด้วย minimax บริสุทธิ์ ในหมากรุกเกมที่มีความอ่อนไหวทางทฤษฎีเพียงเล็กน้อยเท่านั้น AI จะประเมินไม่ใช่ตำแหน่งปัจจุบันบนกระดาน แต่ในอนาคตตำแหน่งหลังจากนั้น minimax จะเลือกการย้าย อาจกล่าวได้อย่างหลวม ๆ ว่า Nimzowitsch ปฏิวัติหมากรุกด้วยการวิเคราะห์พฤติกรรมการประเมินที่เป็นที่รู้จัก ถ้าเป็นเช่นนั้นเครื่องจักรจะทำเช่นเดียวกันได้หรือไม่?
บาท

1
ดังนั้นคุณจะบอกว่ามันจะพัฒนาฟังก์ชั่นการประเมินของตัวเอง?
อีฟฟรีแมน

2
@thb ในฐานะโปรแกรมเมอร์ฉันคิดว่าปัญหาที่เกิดขึ้นกับความคิดของคุณคือเท่าที่ฉันจะเห็นได้ไม่มีหมากรุกที่เป็นไปได้ AI จะเริ่มด้วยกระดานชนวนที่ว่างเปล่าโดยสิ้นเชิงสำหรับฟังก์ชั่นการประเมินผล หนึ่งสามารถเขียน AI ที่วิเคราะห์เกมสำหรับรูปแบบและใช้วิธีการทางสถิติ / ความน่าจะเป็น (เช่นการอนุมานแบบเบย์) เพื่อปรับการประเมินค่าและการตัดสินใจของมัน แต่โปรแกรมเมอร์ต้องระบุสิ่งที่สำคัญ และเกณฑ์อะไรที่จะประเมินพวกเขา กล่าวอีกนัยหนึ่งแกนพื้นฐานของฟังก์ชั่นการประเมินจะยังคงต้องได้รับการออกแบบโดยมนุษย์
Greg E.

1
อาจเป็นเรื่องที่น่าสนใจที่จะเห็นว่าเอ็นจิ้น minimax ทางพันธุกรรมเกิดขึ้นเช่นถ้าคุณต้องเริ่มต้นชิ้นส่วนทั้งหมดด้วยค่าวัสดุเดียวกันโดยอิงจาก win / loss / draw และให้ค่าวัสดุเปลี่ยนแปลง ฉันแน่ใจว่าผู้สร้างเครื่องยนต์ได้ลองปรับเปลี่ยนสิ่งเหล่านี้แล้วเช่นสร้างอัศวิน 2.9 และบาทหลวง 3.1 เบี้ย
อีฟฟรีแมน

1
@ thb ฉันไม่มีความเชี่ยวชาญ แต่ฉันคิดว่าเป็นอย่างนั้น แม้แต่ AI ที่คุณเชื่อมโยงยังถูก จำกัด ด้วยอคติโปรแกรมเมอร์ ถ้าคุณอ่านรายงานการวิจัยต้นฉบับมันจะบันทึกว่า "คุณสมบัติเวกเตอร์" ฝึกอบรมฟังก์ชั่นการประเมินประกอบด้วยคุณสมบัติของบอร์ดที่ "ได้รับการออกแบบอย่างระมัดระวังด้วยมือ" นั่นคือโปรแกรมเมอร์ยังคงต้องระบุชุดของปัจจัยตำแหน่งคงที่ที่ AI จะทำการตัดสินใจ ฉันคิดว่าข้อดีหลักของโครงข่ายประสาทสำหรับโครงการนี้คือการฝึกอบรมสามารถขนานกันได้ทำให้สามารถประมวลผลเกมแบบอะซิงโครนัสของเกมจำนวนมากได้อย่างมีประสิทธิภาพ
เกร็กอี.

10

ฉันแค่ต้องการขยายคำตอบของ Greg และ Wes ที่นี่ ประเภทของไอไอเอที่ thb กำลังเสนอก็ไม่มีอยู่ในความซับซ้อนที่จำเป็นสำหรับแอปพลิเคชันนี้ และแม้ว่าพวกเขาจะทำฉันสงสัยว่าพวกเขาจะล้มเหลวในเรื่องนี้ ราวกับว่า thb ต้องการ AI อเนกประสงค์ที่แข็งแกร่งซึ่งสามารถสอนกฎพื้นฐานของเกมแล้วส่งออกไป แต่ถ้าคุณดูที่วัตถุประสงค์ทั่วไป AIs ที่อยู่ในการพัฒนาพวกเขาทั้งหมดจะถูกสอนสิ่งต่าง ๆ เช่นการรู้จำวัตถุและการพูดในระดับ 1 ถึง 2 ปี จุดประสงค์ทั่วไปใด ๆ ก่อนอื่น AI จะต้องมีความซับซ้อนเพื่อให้สามารถเข้าใจว่าเกมนั้นคืออะไรก่อนที่มันจะเข้าใจวิธีการเล่นเกม คุณไม่สามารถออกแบบ AI อเนกประสงค์ได้และคาดว่ามันจะทำงานเหมือน AI ที่แคบหรือพิเศษ จุดประสงค์ทั่วไปต้องมีการสอนหมากรุกเช่นเดียวกับบุคคลและคุณไม่สามารถคาดหวังที่จะนำผู้เล่นมือใหม่สองคนที่ไม่มีความรู้เกี่ยวกับประวัติศาสตร์หมากรุกมารวมกัน มันจะใช้เวลาหลายร้อยครั้งของ AI เล่นกันแต่ละคนสามารถเข้าถึงข้อมูลทางประวัติศาสตร์ของเกมทั้งหมดของพวกเขามากกว่าซ้ำหลายแสน และแต่ละ AI จะต้องมีลักษณะที่แตกต่างบางอย่างที่ถ่วงน้ำหนักในระดับที่แตกต่างกัน

มนุษย์ใช้เวลาเกือบ 500 ปีกว่าจะได้รับจากRodrigo (Ruy) López de SeguraและPedro DamiãoถึงPaul Morphyแล้วพิจารณาการเปลี่ยนแปลงเพิ่มเติมที่เกิดขึ้นระหว่างการเล่นของSteinitzและAlekhine. และการเปลี่ยนแปลงทั้งหมดนั้นเกิดขึ้นจากพลวัตของผู้เล่นหลายร้อยหลายพันคนที่มีนิสัยที่แตกต่างกันและคุณลักษณะที่มีอิทธิพลอื่น ๆ (เช่นการสุ่มเลือกอัศวินที่มีเกียรติเหนือบิชอปหรือบิชอปเหนืออัศวิน) ไม่ต้องพูดถึงสไตล์การเล่นและแฟชั่น ทุกสิ่งเหล่านี้มีส่วนทำให้ไดนาโมแห่งการเปลี่ยนแปลงที่มีอิทธิพลต่อหมากรุกมาหลายศตวรรษ ไม่มี AI ที่อ่อนแอ - แม้แต่จุดประสงค์ทั่วไปที่อ่อนแอ AI - ก็สามารถจำลองไดนาโมชนิดนั้นได้เพราะขาดความปรารถนา มีเพียงความปรารถนาที่จะผลักดันบางสิ่งบางอย่างให้นั่งเป็นเวลาหลายชั่วโมงในหลายวันเพื่อวิเคราะห์การเปิดโดยมีความตั้งใจที่จะทำลายหรือปรับปรุงหลังจากที่คู่แข่งถูก "จับ" จริงๆแล้วมันเป็นไดรฟ์ประเภทนี้สำหรับการวิเคราะห์และเตรียมการที่ปรับปรุงการเล่นมานานหลายศตวรรษ - ไม่ใช่การเล่นแบบสุ่มของเกมนับล้านระหว่างผู้เล่นที่อ่อนแอไม่แพ้กัน

มันเหมือนกับการพาคนจำนวนมากที่ไม่พูดภาษาอังกฤษและไม่เคยอ่านวรรณกรรมของเจ้าของภาษาและวางไว้ในห้องที่มีหนังสือภาษาอังกฤษเป็นภาษาที่สอง มันไม่เคยเกิดขึ้น

แก้ไข : ฉันน่าจะรู้ดีกว่าที่จะทำให้การเรียกร้องนี้เพราะมันได้เกิดขึ้น

“ AlphaZero ไม่ได้ 'สอน' เกมในแง่ดั้งเดิม” Chess.com อธิบาย “ นั่นหมายความว่าไม่มีหนังสือเปิดไม่มีตารางฤทธิ์และดูเหมือนไม่มีอัลกอริธึมที่ซับซ้อนที่แยกแยะความแตกต่างเล็กน้อยระหว่างศูนย์รับจำนำและเบี้ยด้านข้าง นี่จะคล้ายกับหุ่นยนต์ที่ได้รับการเข้าถึงเศษโลหะและชิ้นส่วนนับพัน แต่ไม่มีความรู้เกี่ยวกับเครื่องยนต์เผาไหม้จากนั้นจะทำการทดลองหลาย ๆ ครั้งด้วยการรวมกันที่เป็นไปได้จนกว่ามันจะสร้าง Ferrari …โปรแกรมมีเวลาสี่ชั่วโมงในการเล่นตัวเองหลาย ๆ ครั้งจึงกลายเป็นครูของตัวเอง”

การพูดจาไร้สาระอย่างต่อเนื่องของฉันต่อไปอย่างชัดเจน

เรารับเอาความรู้โดยนัยทั้งหมดที่เรามีเกี่ยวกับโลก เพื่อให้สามารถเข้าใจได้ว่าถ้าฉันต้องใช้ชิ้นส่วนของไม้และเล็บค้อนจะมีประโยชน์มากกว่าไขควงฉันต้องเข้าใจก่อนว่าชั้นบางสิ่งมีประโยชน์มากกว่าในสถานการณ์อื่น ฉันต้องเข้าใจว่าสิ่งต่าง ๆ มีประโยชน์ที่สามารถนำไปใช้กับเป้าหมายได้ เหล่านี้คือการวิเคราะห์พฤติกรรม หาก AI ไม่สามารถบอกได้ว่าชิ้นส่วนบางชิ้นมีค่ามากกว่าชิ้นอื่น ๆ มันจะเข้าใจได้อย่างไรว่าคู่ครองคืออะไร หากไม่สามารถตั้งโปรแกรมด้วยการวิเคราะห์พฤติกรรมที่เฉพาะเจาะจงจะต้องสามารถคาดการณ์ความคิดเหล่านี้เช่นประสบการณ์ "รูปแบบ" คุณค่า "และ" ยูทิลิตี้ " และนั่นไม่ใช่โดเมนของ AI ที่แคบ มันเป็นโดเมนของวัตถุประสงค์ทั่วไป AI ที่แข็งแกร่ง


1
คำตอบที่ยอดเยี่ยม ฉันคิดว่าย่อหน้าแรกของคุณตกผลึกความคิดที่ฉันพยายามที่จะข้าม แต่ทำด้วยความชัดเจนมากขึ้น
Greg E.

ขอบคุณเกรก ฉันแค่ต้องการเพิ่มว่าฉันกำลังพูดถึง AI วัตถุประสงค์ทั่วไปที่อ่อนแอ ฉันเชื่อว่า AI ที่แข็งแกร่งอย่างแท้จริงสามารถทำสิ่งนี้ผ่านหลาย ๆ กรณีในช่วงเวลาที่มีการบีบอัดสูง แต่เรายังไม่มี AI ที่แข็งแกร่ง en.wikipedia.org/wiki/Strong_AI
Robert Kaucher

ฉันเห็นด้วยกับทุกสิ่งที่คุณพูดยกเว้นส่วนที่ต้องการ AI สามารถนั่งเป็นเวลาหลายชั่วโมงเพื่อทำสิ่งที่นักออกแบบต้องการ - พลังของคอมพิวเตอร์เพียงพอที่จะแก้ไขหมากรุกได้นั่นคือเรายังไม่มีพลังงานเพียงพอ
อีฟฟรีแมน

นั่นเป็นความจริงเวส แต่แล้วเราก็ฉีดอคติของ "โปรแกรมเมอร์" หรืออะไรก็ตามที่เข้าไปใน AI; ซึ่งเป็นหนึ่งในสิ่งที่ผู้เขียนคำถามไม่ต้องการ
Robert Kaucher

@EveFreeman ฉันคิดว่าคุณเข้าใจผิดในสิ่งที่ฉันพูด ฉันไม่ได้บอกว่าคอมพิวเตอร์จะไม่ "แก้ปัญหาหมากรุก" ฉันกำลังบอกว่าสถานการณ์เฉพาะของ OP เป็นสิ่งที่สำคัญจนถึงจุดที่มันไม่ทำงาน หากระบบไม่มีฮิวริสติกจะทำให้มีค่าเป็นชิ้น ๆ ได้อย่างไร
Robert Kaucher

9

โปรดใคร่ครวญเกี่ยวกับ AI Koan ต่อไปนี้:

ในสมัยที่ซัสมันเป็นมือใหม่มินสกีเคยมาหาเขาเมื่อเขานั่งแฮ็คที่ PDP-6 “ คุณกำลังทำอะไรอยู่” มินสกีถาม “ ฉันกำลังฝึกโครงข่ายประสาทเทียมแบบมีสายเพื่อเล่น Tic-Tac-Toe” Sussman ตอบ “ ทำไมอินเตอร์เน็ตมีสายแบบสุ่ม?” มินสกีถาม “ ฉันไม่ต้องการให้มันมีอคติใด ๆ ของวิธีการเล่น” ซัสแมนกล่าว มินสกีปิดตาของเขาแล้ว “ ทำไมคุณหลับตา?” ซัสแมนถามครูของเขา “ เพื่อที่ว่าห้องจะว่างเปล่า” ในขณะนั้นซัสแมนได้รับความสว่าง

แอปพลิเคชันของเรามีอคติเสมอไม่ว่าคุณจะหลับตาหรือไม่ ...


เกร็ดเล็กเกร็ดน้อยของคุณโน้มน้าวใจมากที่สุด ในส่วนที่คุณสนใจนั้นเกร็ดเล็กเกร็ดน้อยของคุณได้แจ้งให้ฉันขยายคำถามด้วยการอัปเดตซึ่งคุณสามารถดูด้านบนเมื่อคุณมีเวลา
บาท

8

มีใครเคยเขียนโปรแกรมหมากรุกที่มีข้อมูลเชิงลึกของตนเองหรือไม่? ที่เรียนรู้เกมด้วยตัวเอง? นั่นฝึกตัวเองเหรอ?

ใช่. ตรวจสอบเครื่องยนต์หมากรุกยีราฟที่เขียนโดย Matthew Lai เขาเขียนเอ็นจิ้นหมากรุกเป็นส่วนหนึ่งของงานวิจัยปัญญาประดิษฐ์ของเขาในระดับปริญญาโทในสาขาวิทยาศาสตร์คอมพิวเตอร์

มีการพูดคุยกันมากมายเกี่ยวกับปีที่แล้วในฟอรัมหมากรุกของTalkChess ฉันรู้เพราะฉันเป็นนักเขียนโปรแกรมหมากรุกที่มีเครื่องมือที่แข็งแกร่งพอ ๆ กับยีราฟ อย่างไรก็ตามฉันนำเครื่องมือของฉันไปใช้โดยใช้เทคนิคแบบดั้งเดิมในขณะที่ผู้เขียนยีราฟได้ฝึกฝนเครื่องยนต์ของเขาโดยใช้ "การเรียนรู้การเสริมแรงทางโลกด้วยเครือข่ายประสาทลึก" แมทธิวยังคงต้องใช้การค้นหาอัลฟ่า / เบต้าแบบดั้งเดิมเพื่อประเมินตำแหน่งในคำอื่น ๆแบบไดนามิกเพื่อดูการเคลื่อนไหวหลายอย่าง นวัตกรรมของเขาในการฝึกอบรมเครื่องยนต์เพื่อประเมินตำแหน่งคงที่ ในการเปรียบเทียบฉันเขียนความรู้เฉพาะลงในรูทีนการประเมินแบบคงที่ของเครื่องยนต์

ฉันเขียนโค้ดเพื่อปรับพารามิเตอร์การประเมินโดยใช้อัลกอริทึมจับกลุ่มอนุภาค (ดูหน้าขอบคุณในบล็อกของฉันสำหรับลิงก์ไปยังการอภิปรายทางเทคนิค) ที่ให้ผลลัพธ์ที่เป็นบวก - เป็นเครื่องมือที่ดีกว่า อย่างไรก็ตามนี่ไม่ใช่งานที่จะทำให้เอ็นจิ้น "เรียนรู้" มากเท่ากับการลดข้อผิดพลาดในพื้นที่ที่มีขนาดใหญ่มากของพารามิเตอร์การประเมิน (ลำดับของการรวมพารามิเตอร์ที่ไม่ต่อเนื่อง 10 ^ 150)

แมทธิวพูดคุยถึงวิทยานิพนธ์ของเขาในฟอรัม TalkChess เขาทำงานให้กับ Google ใน DeepMind ทันทีถ้าฉันจำได้ถูกต้อง

นอกจากนี้ตรวจสอบโทมัส Petzke ของบล็อก เขาได้เขียนเอ็นจิ้นหมากรุกที่แข็งแกร่งมากคือ iCE และใช้อัลกอริธึมทางพันธุกรรมเพื่อปรับปรุงการประเมินแบบคงที่ของเครื่องยนต์ ดูโพสต์ของเขาจากปี 2013 และก่อนหน้านี้เช่นจำนวนประชากรที่เพิ่มขึ้นตามการเรียนรู้


ยินดีต้อนรับสู่ฟอรัม! บวกหนึ่ง.
SmallChess

ดูเหมือนว่าการสนทนานี้จะถูกตัดสิน หมากรุก Mastering และ Shogi โดยตัวเองเล่นกับทั่วไปเสริมสร้างการเรียนรู้ขั้นตอนวิธี
Erik Madsen

5

การค้นหาของ Google เช่นนี้สามารถทำให้เกิดผลลัพธ์เช่นนี้ได้

โดยเฉพาะอย่างยิ่งฉันเชื่อว่าคุณจะต้องการดูเอกสารนี้ พวกเขาให้ข้อมูลเริ่มต้นของเครื่องยนต์แก่พวกเขาเช่นค่าชิ้นดังนั้นมันจึงไม่ใช่สิ่งที่คุณต้องการ แต่มันก็ทำงานได้ค่อนข้างดี


+1 เพราะฉันชื่นชมการอ้างอิง IEEE ที่น่าสนใจ ฉันเกิดขึ้นแล้วเพื่อทำความคุ้นเคยกับหน้า NeuroChess ทั้งคู่ดูเหมือนว่าจะทำสิ่งที่ฉันมีอยู่ในใจไม่ได้
บาท

3

เป็นไปได้ด้วยการเรียนรู้ของเครื่อง

การเปิดหนังสือหมากรุกเอ็นจิ้นใช้การเรียนรู้ของเครื่อง เอ็นจิ้นทดสอบการเปิดบรรทัดในหนังสือโดยการเล่นหากคะแนนดีกว่าการเปรียบเทียบอื่นมันจะส่งเสริมบรรทัดนั้นในทรีที่เปิด ในเวลาที่เครื่องยนต์เรียนรู้สายที่ดีกว่า

หลังจากการเปิดเฟสสิ้นสุดลงเครื่องยนต์จะหยุดใช้หนังสือและเริ่มใช้ฟังก์ชั่นการประเมินผล


วิธีการใช้เครื่องมือการเรียนรู้ด้วยตนเองโดยใช้การเรียนรู้ของเครื่อง?

ลองนึกภาพเครื่องยนต์โดยใช้หนังสือโดยไม่มีฟังก์ชั่นการประเมินผล และหนังสือจะว่างเปล่าในขั้นต้น ดังนั้นเอ็นจิ้นจึงไม่มีความรู้เกี่ยวกับหมากรุก

เอ็นจิ้นเริ่มเล่นกับหนังสือว่างนี้และไม่ปิดหนังสือจนกว่าจะหมดเกม เราคิดว่ามันเหมือนเครื่องยนต์ธรรมดาที่ใช้หนังสือเปิดจนถึงตอนท้ายของเกม

ในเวลาเครื่องยนต์จะพบความต่อเนื่องที่ดีที่สุดทางสถิติเนื่องจากเส้นที่ไม่ดีจะมีคะแนนแย่ลงตามเวลา แต่แน่นอนว่าเกมจำนวนมากควรเล่นเพื่อให้ได้หนังสือดีๆ ฉันไม่รู้ว่ามากแค่ไหน แต่มากเท่าที่เราจะพูดไม่ได้

ธันวาคม 2017 ปรับปรุง : ดีผมคิดว่าอัลฟาโร่พิสูจน์แล้วว่าฉันผิดโดยการฝึกอบรมตัวเองมากพอที่จะชนะหนึ่งที่แข็งแกร่งเครื่องยนต์ Stockfish กับการปฏิบัติจำนวนเกม


2

สิ่งที่คุณพยายามในพื้นที่นี้อย่าลืมอ่านเรื่องแรกของ Turry ที่นี่: http://waitbutwhy.com/2015/01/artificial-intelligence-revolution-2.html

TL; DR; สปอยเลอร์รุ่นต่อคำขอ:

ในเรื่องของ Turry AI การฝึกอบรมด้วยตนเองของ Turry ต้องเขียนบันทึกย่อที่เขียนด้วยลายมือและจบสิ้นการกำจัดมนุษย์เพราะพวกเขาไม่จำเป็นต้องบรรลุเป้าหมายที่ไร้เดียงสาอย่างเห็นได้ชัดในการเขียนบันทึกที่เขียนด้วยลายมือที่ดี การเปรียบเทียบคือเครื่องมือหมากรุกที่ฝึกฝนด้วยตัวเองกับ AI ส่วนใหญ่มีแนวโน้มที่จะกำจัดมนุษย์เพราะพวกเขาไม่จำเป็นต้องปรับปรุงเป้าหมายที่ไร้เดียงสาอย่างเห็นได้ชัดในการพัฒนาทักษะหมากรุก


คำตอบของคุณน่าสนใจ แต่อาจไม่ได้โน้มน้าวใจ ฉันได้อ่านบทความที่เชื่อมโยง (ทั้งสองส่วน) ตามคำแนะนำของคุณแล้ว ผู้เขียนทำให้คดีของเขาอ่อนลงเล็กน้อยโดยโจมตีผู้ชายฟางบางคน แต่เขาเป็นคนที่รอบคอบ ฉันไม่คิดว่าฉันจะมีอะไรเหมือนบทความในใจของ Turry กระดานหมากรุกขนาด 8 คูณ 8 ที่ผู้เล่นสองคนใช้เวลา 40 ผลัดกันดังนั้นจึงเป็นเรื่องง่าย ฉันพบว่ามันน่าทึ่งที่ AI ไม่สามารถแม้แต่จะคิดเกี่ยวกับหมากรุกด้วยวิธีทั่วไป สำหรับมุมมองตรงกันข้ามการอ่านที่ได้รับมอบหมาย: Feser, Edward ไสยศาสตร์ครั้งสุดท้าย ยังคง +1 สำหรับความสนใจ
บาท


0

การใช้คำศัพท์ anthropomorphic เมื่อจัดการกับระบบคอมพิวเตอร์เป็นอาการของมืออาชีพที่ยังไม่บรรลุนิติภาวะ

จากวิธีที่เราบอกความจริงที่อาจเจ็บ? โดย Edsger W.Dijkstra ผลรวมของข้อสันนิษฐานที่เข้าใจผิดซึ่งเป็นคำถามของคุณ ปัญญาประดิษฐ์อาจเป็นสิ่งประดิษฐ์ แต่ไม่ใช่ปัญญาในความรู้สึกของมนุษย์

ในปี 1984 Reith Lectures for BBC นักปรัชญาชาวอเมริกัน John Searleอธิบายว่าเกิดอะไรขึ้นกับ AI ที่ยาก "ยาวเกินไปไม่ฟัง" บทสรุปของการโต้แย้งของเขาคือ "ไวยากรณ์ไม่ใช่ความหมาย" แต่ฉันจะขอแนะนำให้คุณอย่างน้อยฟังการบรรยาย 2 "กระป๋องเบียร์และเครื่องทำเนื้อสัตว์ "

เมื่อคุณเข้าใจสิ่งที่ Dijkstra และ Searle พูดมานานกว่า 30 ปีแล้วคุณจะรู้ว่าเกิดอะไรขึ้นกับคำถามของคุณ:

มีใครเคยเขียนโปรแกรมหมากรุกที่มีข้อมูลเชิงลึกของตนเองหรือไม่? ที่เรียนรู้เกมด้วยตัวเอง?

มนุษย์มี "ข้อมูลเชิงลึก" และสามารถเรียนรู้ได้ คอมพิวเตอร์ไม่สามารถ หมู่บ้านมนุษย์โบราณของคุณสามารถสร้างทฤษฎีการเปิดหมากรุกขึ้นมาได้หลายศตวรรษ แต่คอมพิวเตอร์ไม่ได้


คุณยืนยันว่าคอมพิวเตอร์จะไม่เข้าถึงความฉลาดระดับมนุษย์หรือว่า "ความคิด" และ "ความเข้าใจ" นั้นสงวนไว้สำหรับมนุษย์
BlindKungFuMaster

@BlindKungFuMaster หากคุณมีปัญหาในการฟัง "กระป๋องเบียร์และเครื่องทำเนื้อสัตว์" ในลิงก์ด้านบนมันจะชัดเจนสำหรับคุณในสิ่งที่ John Searle คิด เขาทำให้ฉันและฉันแบ่งปันมุมมองของเขา
Brian Towers

ความเข้าใจที่เรียบง่ายของ Searle เกี่ยวกับโปรแกรมคอมพิวเตอร์ AI นั้นสามารถยกระดับได้หลังจากทั้งหมดมันเป็นเพียงปี 1984 แต่สถาปัตยกรรม AI สมัยใหม่เลียนแบบสถาปัตยกรรมของจิตใจมนุษย์เท่านั้นดังนั้นเฉพาะสถาปัตยกรรมที่มีการอธิบายวากยสัมพันธ์ "พลัง (ยังไม่มาก) เทียบเท่ากับพลังของสมองมนุษย์" มาจากการนำเข้าข้อมูลจำนวนมากโดย "การเรียนรู้" เฉพาะในขั้นตอนนี้เท่านั้นที่จะบันทึกเนื้อหาความหมาย
BlindKungFuMaster

ดังนั้นข้อโต้แย้งของห้องจีนนั้นมีข้อบกพร่องโดยสมมติว่าคุณสามารถจำลองการทำความเข้าใจกับกฎเกณฑ์ขนาดใหญ่เพียงอย่างเดียวซึ่งอันที่จริงแล้วค่อนข้างไร้สาระและด้วยความเป็นไปได้ที่แทนที่จะจับความหมายของเนื้อหาเชิงความหมายโดยสถาปัตยกรรมที่เหมาะสมจากข้อมูลจำนวนมาก ในความเป็นจริงนี่คือสิ่งที่การประมวลผลภาษาธรรมชาติเป็นสิ่งที่เกี่ยวกับวันนี้: cs224d.stanford.edu/syllabus.html
BlindKungFuMaster

@BlindKungFuMaster มีคำสำคัญหนึ่งคำในสิ่งที่คุณพูดซึ่งฉันไม่เข้าใจ มันเป็นคำว่า "จำลอง" ฉันทำงานเป็นวิศวกรซอฟต์แวร์คอมพิวเตอร์มานาน 35 ปีและในช่วงเวลานั้นฉันมีเครื่องจำลองหลายเครื่องและเขียนเองด้วย ตัวจำลองมักเป็นส่วนประกอบที่สำคัญของโครงการ แต่ในโครงการเรียลไทม์พวกเขาไม่เคยเปลี่ยนอุปกรณ์เป้าหมายอย่างสมบูรณ์ ไม่ต้องสงสัยเลยว่าคอมพิวเตอร์มีความสามารถในการเลียนแบบสติปัญญาและความเข้าใจทางความหมายที่ยอดเยี่ยม แต่พวกเขาไม่สามารถบรรลุถึงความตั้งใจความเข้าใจ
Brian Towers

0

คำตอบนี้ได้รับจากผู้ถามคำถามต้นฉบับสี่ปีหลังจากคำถาม มันไม่ได้แทนที่หรือแทนที่คำตอบที่ได้รับก่อนหน้านี้เพราะคำตอบก่อนหน้าส่วนใหญ่น่าสนใจกว่าคำตอบนี้ อย่างไรก็ตามคำตอบนี้อาจเพิ่มบริบทเพิ่มเติม

เท่าที่ฉันสามารถบอกได้การวิจัย AI ส่วนใหญ่ดูเหมือนว่าจะให้หลักฐานว่าความคิดและเหตุผลเป็นเพียงปรากฏการณ์ทางวัตถุเพียงอย่างเดียวหรืออย่างน้อยก็ผลลัพธ์ที่แยกไม่ออกจากความคิดและเหตุผลจะต้องสามารถทำได้โดยกระบวนการทางวัตถุเพียงอย่างเดียว ฉันไม่ได้โต้แย้งหลักฐาน (หรือที่นี่ส่งเสริมมันสำหรับเรื่องนั้น) ฉันแค่สังเกตว่ามันดูเหมือนจะเป็นหลักฐาน

และในท้ายที่สุดในการวิจัย AI สิ่งนี้ไม่ควรเป็นหลักฐานหรือไม่? นักวิจัย AI จะต้องทำงานผ่านกระบวนการวัสดุไม่ว่าจะเป็นหรือไม่มีเลย

Schoolmen ของจริงปรัชญากลับผ่าน Duns ตัส, เซนต์โทมัสอริสโตเติลและเพลโตมีมากที่จะพูดเกี่ยวกับทฤษฎีของจิตใจ ตัวแทนเช่นคานท์มีสิ่งที่แตกต่างกันที่จะพูด งานวิจัยของ AI น่าจะใกล้เคียงกับคานท์ แต่นี่ไม่ได้ทำให้นักเรียนผิด

เป็นที่ยอมรับมีการคัดค้านGod-of-the-gapsซึ่งมีแนวโน้มที่จะปรากฏขึ้นที่จุดนี้ในการสนทนาของชนิดปัจจุบัน แต่นักปรัชญามืออาชีพจะบอกคุณว่าการคัดค้านพระเจ้าของช่องว่างโจมตีคนฟาง การคัดค้านครั้งนี้มีแนวโน้มที่จะเป็นประโยชน์เฉพาะกับบุคคลที่ไม่ได้ศึกษาปรัชญาดังนั้นจึงไม่รู้ว่าพวกเขากำลังพูดถึงอะไร ต่ออริสโตเติลเป็นสาเหตุที่เป็นทางการและเป็นขั้นตอนสุดท้ายซึ่งอาจเกี่ยวข้องกับคำถามของหมากรุก AI ที่ฝึกฝนตัวเอง แต่ในแง่ของอริสโตเติลผู้วิจัย AI ก็ทำงานกับวัสดุอย่างหมดจดและโดยเฉพาะอย่างยิ่งสาเหตุที่มีประสิทธิภาพ(ยกเว้นอาจจะเอียงไปข้างๆตราบเท่าที่ผู้ฝึกสอนมนุษย์นำองค์ประกอบที่เป็นทางการและสุดท้ายเข้าสู่ระบบ) หากเหตุผลเป็นทางการหากคิดว่าเป็นขั้นสุดท้ายหากห้องจีนของ Searleพิสูจน์ให้เห็นว่าเป็นไปไม่ได้เกี่ยวกับธรรมชาติ (เท่าที่มันจะเป็นไปได้) มันอาจเป็นไปได้ว่าหมากรุก AI ที่ฝึกฝนด้วยตนเองล้วนๆไม่สามารถทำได้แม้แต่ในทางทฤษฎี

ฉันสงสัยว่าหมากรุก AI ที่ผ่านการฝึกอบรมด้วยตนเองล้วนสามารถบรรลุผลได้จริงและจะเป็นเช่นนั้น - ในแง่ของ Aristotlean คำถามนี้จะพิสูจน์ให้เห็นว่ามีเหตุผลเพียงพอในมุมมองของสาเหตุที่มีประสิทธิภาพเพียงอย่างเดียว ฉันมักจะสงสัยว่า AI ที่แข็งแกร่งโดยทั่วไปแล้ว แต่สิ่งเหล่านี้ต้องได้รับการพิสูจน์จากประสบการณ์ใช่ไหม? ยังไม่มีใครรู้จริงๆ

ปรัชญาของสาเหตุและจิตใจนั้นบอบบางจับได้เพียงไม่กี่คน (และอาจเป็นไปได้ไม่มากแม้แต่ในหมู่นักวิจัยของ AI ซึ่งเป็นคนที่ทำงานได้จริง) หากคุณต้องการเรียนรู้ปรัชญาดังกล่าวมันก็คุ้มค่ากับการเรียนรู้ แต่โปรดทราบว่าบนอินเทอร์เน็ตและบ่อยครั้งที่พิมพ์มันเป็นเรื่องง่ายมากที่จะค้นหาคำอธิบายที่ทำให้เข้าใจผิดบนพื้นฐานของความเข้าใจผิดที่ไม่ได้รับการสอน สำหรับเงินของฉันอาจารย์ที่ดีที่สุดที่เขียนวันนี้เกี่ยวกับเรื่องนี้คือ Edward Feser ซึ่งหนังสือยังคงพิมพ์อยู่ในราคาที่สมเหตุสมผล คุณสามารถเรียนรู้เพิ่มเติมจากเขา

อย่างไรก็ตามมีข้อสงสัยอย่างหนึ่งว่าแม้แต่ดร. เฟสเซอร์ก็ยังสามารถหาคำตอบที่เชื่อถือได้สำหรับคำถามปัจจุบัน! คำตอบนั้นจะต้องได้รับการพิสูจน์ในห้องปฏิบัติการของ AI


-3

ฉันต้องการให้พวกเขาปล่อยรหัสจากนั้นเราก็คุยกันได้ ไม่ใช่เรื่องง่ายที่จะแก้หมากรุกอัลฟ่าจะไม่แก้มันแม้แต่ในครึ่งศตวรรษ มันตลกที่ยังเล่น 1.d4 ทำไม? เพราะมันได้รับการฝึกฝนเกี่ยวกับเกมของมนุษย์และทฤษฎีของมนุษย์ให้อัตราประสิทธิภาพสูงสุดสำหรับ 1.d4 สิ่งที่ไม่ดีไม่ทราบว่า 1 ... c5 บรรลุผลเสมอในการเคลื่อนไหว 8 ครั้งอย่างแม่นยำ ตอนนี้พวกเขาต้องการให้ฉันเชื่อว่าอัลฟ่าไม่ได้ใช้หนังสือจำลองเปิด ... พวกเขาบอกว่าอัลฟ่าเล่นช่องที่ยอดเยี่ยม ใช่มีข้อยกเว้นบางประการ 1.d4 ไม่สามารถพูดได้ดีถึงระดับความฉลาดของโปรแกรม โชคดีที่เอสเอฟยังอ่อนแอในช่วงเปิด :)


3
คุณอ้างสิทธิ์อย่างกล้าหาญในการบอกว่า 1. ... c5 บรรลุผลเสมอใน 8 การเคลื่อนไหวและ Stockfish นั้นอ่อนแอในช่วงเปิด คุณช่วยกรุณาอ้างอิงการอ้างสิทธิ์เหล่านี้ได้ไหม?
Pablo S. Ocal

1
1.d4 ไม่สามารถพูดได้ดีถึงระดับความฉลาดของโปรแกรม ในฐานะผู้เล่น 1.d4 ฉันสงสัยว่าฉันควรพิจารณาว่าสติปัญญาของฉันถูกดูถูกที่นี่หรือไม่
Evargalo

แม้ว่าพวกเขาจะยังไม่ได้ปล่อยรหัสหรือแม้แต่ตีพิมพ์บทความ แต่โครงการที่จะทำซ้ำผลลัพธ์ของพวกเขาได้เปิดตัวแล้ว: lczero.orgคุณสามารถเล่นกับ "AlphaZero" ที่พัฒนาได้ที่play.lczero.org
Junyan Xu
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.