คำถามติดแท็ก game-ai

4
จะจัดการกับการเคลื่อนไหวที่ไม่ถูกต้องในการเรียนรู้การเสริมแรงได้อย่างไร?
ฉันต้องการสร้าง AI ซึ่งสามารถเล่นห้าในแถว / gomoku ดังที่ฉันพูดถึงในชื่อเรื่องฉันต้องการใช้การเรียนรู้เสริมแรงสำหรับสิ่งนี้ ฉันใช้วิธีการไล่ระดับสีนโยบายคือ REINFORCE ที่มีพื้นฐาน สำหรับการประมาณค่าและนโยบายการทำงานของผมใช้โครงข่ายประสาทเทียม มันมีเลเยอร์ convolutional และเชื่อมต่ออย่างเต็มที่ เลเยอร์ทั้งหมดยกเว้นการส่งออกจะถูกแชร์ ชั้นผลผลิตของนโยบายมี8 × 8 = 648×8=648 \times 8=64 (ขนาดของคณะกรรมการ) หน่วยส่งออกและsoftmaxกับพวกเขา ดังนั้นมันจึงสุ่ม แต่ถ้าเครือข่ายสร้างความน่าจะเป็นสูงมากสำหรับการย้ายที่ไม่ถูกต้อง การย้ายที่ไม่ถูกต้องคือเมื่อตัวแทนต้องการตรวจสอบสี่เหลี่ยมที่มีหนึ่ง "X" หรือ "O" ฉันคิดว่ามันสามารถติดอยู่ในสถานะเกมนั้น คุณช่วยแนะนำวิธีแก้ปัญหาสำหรับปัญหานี้ได้ไหม? ฉันเดาว่าจะใช้วิธีการของนักวิจารณ์ สำหรับการย้ายที่ไม่ถูกต้องเราควรให้รางวัลเป็นค่าลบและส่งต่อให้ฝ่ายตรงข้าม

3
ฉันจะเลือกอัลกอริทึมที่ดีที่สุดสำหรับเกมกระดานเช่นหมากฮอสได้อย่างไร
ฉันจะเลือกอัลกอริทึมที่ดีที่สุดสำหรับเกมกระดานเช่นหมากฮอสได้อย่างไร จนถึงตอนนี้ฉันได้พิจารณาอัลกอริธึมเพียงสามประการเท่านั้นคือการตัดขนาดเล็กสุดอัลฟาเบต้าและการค้นหาต้นไม้มอนติคาร์โล (MCTS) เห็นได้ชัดว่าการตัดแต่งกิ่งทั้งอัลฟ่าและ MCTS เป็นส่วนขยายของอัลกอริธึมมินิแมกซ์พื้นฐาน

2
การเข้ารหัสอินพุต / เอาต์พุตสำหรับเครือข่ายนิวรัลเพื่อเรียนรู้เกมแบบอิงกริด
ฉันกำลังเขียนเกมของเล่นง่ายๆโดยมีจุดประสงค์ในการฝึกอบรมโครงข่ายประสาทเทียมที่อยู่ด้านบน กฎของเกมมีดังต่อไปนี้: เกมนี้มีกระดานที่ประกอบด้วยเซลล์หกเหลี่ยม ผู้เล่นทั้งสองมีคอลเล็กชั่นชิ้นเดียวกันกับที่พวกเขาสามารถเลือกที่จะวางตำแหน่งบนกระดานได้อย่างอิสระ การวางคะแนนประเภทต่าง ๆ (หรือลดคะแนนของคู่ต่อสู้) ขึ้นอยู่กับตำแหน่งและการกำหนดค่าของกันและกัน ใครก็ตามที่มีคะแนนมากกว่าจะชนะ มีกฎเพิ่มเติม (เกี่ยวกับผลัดจำนวนและประเภทของชิ้นส่วน ฯลฯ ) แต่ก็ไม่สำคัญในบริบทของคำถามนี้ ฉันต้องการสร้างโครงข่ายประสาทเทียมที่สามารถเรียนรู้ซ้ำ ๆ ได้โดยการเล่นกับตัวเอง คำถามของฉันเกี่ยวกับการเป็นตัวแทนของอินพุตและเอาต์พุต โดยเฉพาะอย่างยิ่ง: เนื่องจากรูปแบบของชิ้นส่วนสำคัญฉันจึงคิดที่จะมีเลเยอร์ convolutional อย่างน้อย กระดานอาจมีขนาดที่แตกต่างกัน แต่โดยทั่วไปแล้วจะมีขนาดเล็กมาก (6x10 ในการทดสอบของฉันที่จะขยายโดยไม่กี่เซลล์) มันสมเหตุสมผลหรือไม่ ฉันสามารถใช้การรวมกำไรแบบใดได้บ้าง วิธีการเป็นตัวแทนของทั้งสองฝ่าย? ในบทความนี้เกี่ยวกับการเดินทางผู้เขียนใช้เมทริกซ์การป้อนข้อมูลสองรายการหนึ่งรายการสำหรับหินขาวและอีกเล่มสำหรับหินดำ มันสามารถทำงานได้ในกรณีนี้ด้วยหรือไม่ แต่จำไว้ว่าฉันมีประเภทที่แตกต่างกันพูด A, B, C และ D ฉันควรใช้เมทริกซ์การป้อนข้อมูล 2x4? มันดูเบาบางและมีประสิทธิภาพเพียงเล็กน้อยสำหรับฉัน ฉันกลัวว่ามันจะเบาบางเกินไปสำหรับการทำงานของชั้น convolutional ฉันคิดว่าผลลัพธ์อาจเป็นการกระจายความน่าจะเป็นเหนือเมทริกซ์ซึ่งเป็นตัวแทนของตำแหน่งคณะกรรมการรวมถึงความน่าจะเป็นที่แยกต่างหากซึ่งระบุว่าจะเล่นส่วนใด อย่างไรก็ตามฉันยังต้องแสดงความสามารถในการผ่านจุดเลี้ยวซึ่งมีความสำคัญมาก ฉันจะทำได้โดยไม่ลดความสำคัญลงในความน่าจะเป็นอื่น ๆ ได้อย่างไร และที่สำคัญที่สุดฉันต้องบังคับให้ชนะหรือไม่ การบังคับให้ย้ายที่ชนะเป็นเรื่องง่ายเพราะฉันเพิ่งตั้งความน่าจะเป็นที่ต้องการ 1 …

2
AlphaZero เป็นตัวอย่างของ AGI หรือไม่
จากรายงานการวิจัยของ DeepMind ที่ arxiv.org: ในบทความนี้เราใช้อัลกอริทึมที่คล้ายกัน แต่โดยทั่วไปซึ่งเราเรียกว่าAlphaZeroกับเกมหมากรุกและโชกิรวมถึง Go โดยไม่มีความรู้ด้านโดเมนเพิ่มเติมยกเว้นกฎของเกมแสดงให้เห็นว่าการเรียนรู้การเสริมแรงทั่วไป อัลกอรึทึมสามารถบรรลุได้, ตารางประสิทธิภาพ, ประสิทธิภาพเหนือมนุษย์ในหลาย ๆ โดเมนที่ท้าทาย นี่หมายความว่า AlphaZero เป็นตัวอย่างของ AGI (Artificial General Intelligence) หรือไม่?

3
วิธีการฝึกโครงข่ายประสาทเทียมสำหรับเกมกระดานแบบกลม?
ฉันสงสัยว่าจะฝึกโครงข่ายประสาทสำหรับเกมกระดานแบบกลมเช่นโอเอกซ์หมากรุกความเสี่ยงหรือเกมอื่น ๆ การเคลื่อนย้ายครั้งต่อไปโดยการอนุมานนั้นค่อนข้างตรงไปตรงมาโดยป้อนสถานะของเกมเป็นอินพุตและใช้เอาต์พุตเป็นตัวย้ายสำหรับผู้เล่นปัจจุบัน อย่างไรก็ตามการฝึกอบรม AI เพื่อจุดประสงค์นั้นดูเหมือนจะไม่ตรงไปตรงมาเพราะ: อาจไม่มีการจัดเรตถ้าการย้ายครั้งเดียวทำได้ดีหรือไม่ดังนั้นการฝึกท่าเดียวจะไม่เป็นทางเลือกที่เหมาะสม การใช้สถานะเกม (อินพุต) และการเคลื่อนไหว (เอาท์พุต) ของเกมทั้งหมดเพื่อฝึกอบรมเครือข่ายประสาทดูเหมือนจะไม่ใช่ตัวเลือกที่ถูกต้องเนื่องจากการเคลื่อนไหวภายในเกมที่หายไปอาจไม่ดีนัก ดังนั้นฉันจึงสงสัยว่าจะฝึกโครงข่ายประสาทเทียมสำหรับเกมกระดานแบบกลมได้อย่างไร ฉันต้องการสร้างเครือข่ายประสาทเทียมสำหรับโอเอกซ์โดยใช้เมตริกซ์

4
เครือข่ายประสาทสามารถทำงานตามแนวคิดของระยะทางได้หรือไม่
ลองนึกภาพเกมที่มีหน้าจอสีดำแยกจากพิกเซลสีแดงและพิกเซลสีน้ำเงิน ให้เกมนี้กับมนุษย์พวกเขาจะเห็นว่าการกดปุ่มลูกศรจะย้ายจุดสีแดง สิ่งต่อไปที่พวกเขาจะพยายามคือย้ายพิกเซลสีแดงไปยังพิกเซลสีน้ำเงิน มอบเกมนี้ให้กับ AI โดยจะสุ่มย้ายพิกเซลสีแดงจนกว่าจะมีผู้ลองล้านครั้งในภายหลังโดยบังเอิญย้ายไปที่พิกเซลสีน้ำเงินเพื่อรับรางวัล หาก AI มีแนวคิดระยะห่างระหว่างพิกเซลสีแดงและสีน้ำเงินมันอาจพยายามลดระยะห่างนี้ หากไม่มีการเขียนโปรแกรมในแนวคิดของระยะทางหากเราใช้พิกเซลของเกมเราสามารถคำนวณจำนวนเช่น "เอนโทรปี" ซึ่งจะต่ำกว่าเมื่อพิกเซลอยู่ห่างกันมากกว่าเมื่ออยู่ใกล้กันหรือไม่ ควรทำงานกับการกำหนดค่าพิกเซลอื่น ๆ เช่นเกมที่มีสามพิกเซลในที่ที่ดีและอีกอันไม่ดี เพียงเพื่อให้โครงข่ายประสาทมีความรู้สึกว่าหน้าจอเป็นอย่างไร จากนั้นให้ตั้งเป้าหมาย NN เช่น "พยายามทำให้เอนโทรปีของคณะกรรมการน้อยลงและพยายามรับรางวัล" มีอะไรคล้ายกับเรื่องนี้ในการวิจัยปัจจุบันหรือไม่?

1
ข้อสงสัยเล็กน้อยเกี่ยวกับการประยุกต์ใช้การเรียนรู้การเสริมแรงกับเกมเช่นหมากรุก
ฉันคิดค้นเกมกระดานเหมือนหมากรุก ฉันสร้างเครื่องยนต์เพื่อให้สามารถเล่นได้อย่างอิสระ เครื่องยนต์นั้นเป็นต้นไม้ตัดสินใจ มันประกอบด้วย: ฟังก์ชั่นการค้นหาที่แต่ละโหนดพบความเคลื่อนไหวที่ถูกกฎหมาย ฟังก์ชั่นการประเมินผลที่กำหนดค่าตัวเลขให้กับตำแหน่งกระดาน (บวกหมายถึงผู้เล่นคนแรกได้ไพ่ที่สูงกว่าหมายถึงผู้เล่นที่สองชนะแทน) อัลกอริทึม negamax การตัดตัวอักษร ปัญหาหลักเกี่ยวกับเอ็นจิ้นนี้คือการยกเลิกฟังก์ชั่นการประเมินผลนั้นยุ่งยากมาก ฉันไม่รู้ว่าปัจจัยใดที่ควรพิจารณาและน้ำหนักที่ควรใส่ วิธีเดียวที่ฉันเห็นการปรับปรุงเครื่องยนต์คือการทำซ้ำเกมที่พยายามแต่ละครั้งรวมกันของปัจจัยและน้ำหนัก อย่างไรก็ตามการคำนวณดูเหมือนว่าจะเป็นเพลงที่ยากมาก (ฉันสามารถ backpropagate ได้โดยไม่ต้องใช้ deeplearning หรือเปล่า) ฉันต้องการใช้การเรียนรู้การเสริมแรงเพื่อทำให้เครื่องยนต์ดีขึ้นโดยการเล่นกับตัวเอง ฉันได้อ่านเกี่ยวกับหัวข้อ แต่ฉันยังค่อนข้างสับสน มีรางวัลอื่นอีกบ้างในเกมที่เป็นส่วนหนึ่งของผลลัพธ์แบบชนะหรือแพ้ (1 หรือ 0) ถ้าฉันใช้รางวัลอื่น ๆ เช่นผลลัพธ์จากฟังก์ชั่นการประเมินผลในแต่ละเทิร์นฉันจะใช้มันได้อย่างไร ฉันจะแก้ไขฟังก์ชั่นการประเมินผลเพื่อให้ได้ผลตอบแทนที่ดีขึ้นหลังจากทำซ้ำได้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.