AI เรียนรู้ที่จะลงมือทำอย่างไรเมื่อพื้นที่ปัญหาใหญ่เกินไป


10

ฉันเรียนรู้ได้ดีที่สุดผ่านการทดลองและตัวอย่าง ฉันเรียนรู้เกี่ยวกับเครือข่ายประสาทและมี (สิ่งที่ฉันคิดว่า) เป็นความเข้าใจที่ดีของการจัดหมวดหมู่และการถดถอยและการเรียนรู้แบบมีผู้สอนและไม่ได้ดูแล แต่ฉันก็สะดุดกับบางสิ่งที่ฉันไม่สามารถเข้าใจได้

ถ้าฉันต้องการฝึก AI ให้เล่นเกมที่ซับซ้อน ฉันกำลังคิดบางอย่างเช่น RTS (เช่น Age of Empires, Empire Earth และอื่น ๆ ) ในเกมประเภทนี้โดยทั่วไปจะมีจำนวนเอนทิตีที่ควบคุมโดยผู้เล่น (หน่วยอาคาร) แต่ละแห่งมีความสามารถแตกต่างกัน ดูเหมือนว่าปัญหาของ AI จะเป็นการจำแนก (เช่นเลือกหน่วยนั้นและการกระทำนั้น) อย่างไรก็ตามเนื่องจากจำนวนหน่วยเป็นตัวแปรหนึ่งจะจัดการกับปัญหาการจำแนกประเภทด้วยวิธีนี้ได้อย่างไร

สิ่งเดียวที่ฉันนึกได้ก็คือเครือข่ายหลายเครือข่ายที่มีหลายขั้นตอน (หนึ่งสำหรับกลยุทธ์โดยรวมหนึ่งสำหรับการควบคุมหน่วยประเภทนี้หนึ่งสำหรับอาคารประเภทนั้น ฯลฯ ); แต่ดูเหมือนว่าฉันกำลังทำให้ปัญหาซับซ้อนขึ้น

มีตัวอย่างที่ดีของการเรียนรู้ของเครื่อง / เครือข่ายประสาทเทียมในการเรียนรู้เกมที่ซับซ้อน (ไม่ใช่เฉพาะ RTS แต่ซับซ้อนกว่าMario )?


"RTS AI: ปัญหาและเทคนิค", webdocs.cs.ualberta.ca/~cdavid/pdf/ecgg15_chapter-rts_ai.pdf
Anton Tarasenko

อาจเป็นประโยชน์ต่อคำตอบ: ijcai.org/papers07/Papers/IJCAI07-168.pdfและตรวจสอบเหมือนกัน: aigamedev.com/open/review/transfer-learning-rts
Neil Slater

คุณเคยเห็นcs.toronto.edu/~vmnih/docs/dqn.pdfหรือไม่
xgdgsc

คำตอบ:


4

นั่นเป็นคำถามที่ดีและนักวิทยาศาสตร์หลายคนทั่วโลกกำลังถามกัน ก่อนอื่นเกมอย่าง Age of Empires นั้นไม่ถือว่ามีพื้นที่ขนาดใหญ่มากมีหลายสิ่งที่คุณทำได้ มันเหมือนกันในเกมอย่าง Mario Bros ปัญหาของการเรียนรู้ในเกมง่าย ๆ เช่นเกม Atari นั้นถูกแก้ไขโดยพวก DeepMind (นี่คือบทความ ) ที่ Google ซื้อมา พวกเขาใช้การเสริมแรงการเรียนรู้ด้วยการเรียนรู้ลึก

กลับไปที่คำถามของคุณ ปัญหาใหญ่จริง ๆ คือวิธีเลียนแบบปริมาณการตัดสินใจที่มนุษย์ใช้ทุกวัน ตื่นนอนทานอาหารเช้าอาบน้ำออกจากบ้านของคุณ ... แอ็คชั่นเหล่านี้ต้องใช้ความฉลาดระดับสูงและการพัฒนามากมาย

มีหลายคนที่ทำงานกับปัญหานี้ฉันเป็นหนึ่งในพวกเขา ฉันไม่ทราบวิธีแก้ปัญหา แต่ฉันสามารถบอกคุณได้ว่าฉันกำลังมองหาวิธีใด ฉันติดตามทฤษฎีของมาร์วินมินสกีเขาเป็นหนึ่งในบรรพบุรุษของ AI หนังสือเล่มนี้เครื่อง Emotion บอกมุมมองที่ดีของปัญหา เขาแนะนำว่าวิธีการสร้างเครื่องจักรที่เลียนแบบพฤติกรรมมนุษย์นั้นไม่ได้เกิดจากการสร้างทฤษฎีที่มีขนาดกะทัดรัดแบบรวมศูนย์ของปัญญาประดิษฐ์ ในทางตรงกันข้ามเขาแย้งว่าสมองของเรามีทรัพยากรที่แข่งขันกันเพื่อให้บรรลุเป้าหมายที่แตกต่างในเวลาเดียวกัน พวกเขาเรียกว่าวิธีการที่จะคิดว่า


1

เป็นคำถามที่ดีมาก นี่เป็นเรื่องของความซับซ้อนและวิธีการที่คุณใช้จะขึ้นอยู่กับความซับซ้อนของปัญหา ปัญหาใด ๆ ที่เราพยายามแก้ไขจะมีระดับของความซับซ้อนที่เกี่ยวข้องกับมันเรียกว่า "จำนวนสิ่งที่มีปฏิสัมพันธ์หรือสิ่งที่ต้องพิจารณา" ในการเรียนรู้แบบมีผู้สอนและไม่มีผู้ดูแลเราระบุจำนวนสิ่งที่ต้องพิจารณาอย่างแม่นยำ

ตัวอย่างเช่นในการถดถอยเชิงเส้นหลายครั้งเราจะบอกอัลกอริทึมการเรียนรู้ว่ามีคุณสมบัติกี่ข้อที่ควรพิจารณาเมื่อปรับแบบจำลอง (จำนวนคอลัมน์ในชุดการฝึกอบรมของคุณ) สถานการณ์เดียวกันมีไว้เพื่อการเรียนรู้ที่ไม่มีผู้ดูแล มีการใช้ชุดการฝึกอบรมที่กำหนดชัดเจนพร้อมด้วยจำนวนคุณสมบัติที่ชัดเจน (ในกรณีนี้ไม่มีป้ายกำกับ)

สิ่งที่คุณเผชิญอยู่นั้นเป็นสถานการณ์ที่ไม่เหมาะสมสำหรับการจำแนกประเภทหรือการถดถอยเนื่องจากคุณไม่สามารถระบุจำนวน "สิ่งที่ต้องพิจารณา" ได้อย่างแม่นยำ อย่างที่คุณพูดพื้นที่ปัญหาของคุณใหญ่เกินไป อีกวิธีในการคิดเกี่ยวกับสิ่งนี้คือในส่วนของชุดฝึกอบรมที่จำเป็นในการเรียนรู้แบบจำลอง มันยากแค่ไหนสำหรับคุณที่จะจินตนาการว่าชุดฝึกอบรมมีลักษณะอย่างไร ในกรณีของคุณยาก คอลัมน์ในชุดของฉันมีอะไรบ้าง

นี่คือเหตุผลที่แอปพลิเคชันเช่นรถยนต์ที่ขับเคลื่อนด้วยตนเอง, Atari และ AlphaGo ไม่ได้ใช้การจำแนกหรือการถดถอย เป็นไปไม่ได้ที่จะทราบว่าชุดการฝึกอบรมจะมีลักษณะอย่างไร คุณสามารถลองได้ แต่แบบจำลองของคุณจะล้มเหลวในการคาดการณ์ที่เชื่อถือได้ (ในกรณีนี้คือการย้าย) คุณต้องพิจารณาหลายวิธีในการสร้างแบบจำลองของสภาพถนน

นี่คือเหตุผลว่าทำไมการเรียนรู้ของเครื่องชนิดที่สามการเรียนรู้การเสริมแรงจึงมีอยู่ แทนที่จะใช้ชุดการฝึกอบรมที่ระบุไว้ล่วงหน้าจะใช้การทดลองและข้อผิดพลาด ด้วยการกระตุ้นสิ่งแวดล้อมอย่างต่อเนื่องทำให้สามารถเรียนรู้นโยบายที่ใช้งานได้ในระยะยาว

ดังนั้นสำหรับพื้นที่ที่มีปัญหาน้อยกว่าซึ่งเรามีโอกาสได้กำหนดชุดการฝึกอบรมเราใช้การเรียนรู้ของเครื่องที่ควบคุมและไม่ได้รับการดูแล สำหรับพื้นที่ที่มีปัญหามากขึ้นซึ่งเป็นเรื่องยากที่จะกำหนดชุดการฝึกอบรมที่เราใช้การเรียนรู้การเสริมแรง แน่นอนคุณสามารถสร้างชุดค่าผสมที่น่าสนใจของวิธีการข้างต้นทั้งหมด แต่ก็ยังมีความซับซ้อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.