ทำไมเครือข่ายประสาทเทียมที่ผสานของ AlphaGo Zero จึงมีประสิทธิภาพมากกว่าเครือข่ายประสาทเทียมสองเครือข่ายแยกกัน


10

AlphaGo Zeroมีการปรับปรุงหลายอย่างเมื่อเทียบกับรุ่นก่อน รายละเอียดทางสถาปัตยกรรมของ Alpha Go Zero สามารถดูได้ในเอกสารสูตรนี้

การปรับปรุงอย่างใดอย่างหนึ่งคือการใช้เครือข่ายประสาทเดี่ยวที่คำนวณความน่าจะเป็นในการย้ายและค่าสถานะในเวลาเดียวกันในขณะที่รุ่นเก่าใช้เครือข่ายประสาทสองแยก มันแสดงให้เห็นว่าเครือข่ายประสาทที่ผสานมีประสิทธิภาพมากขึ้นตามเอกสาร:

มันใช้เครือข่ายประสาทเทียมเดียวมากกว่าสองเครือข่าย AlphaGo เวอร์ชันก่อนหน้านี้ใช้ "นโยบายเครือข่าย" เพื่อเลือกการเล่นครั้งต่อไปและ "เครือข่ายค่า" เพื่อทำนายผู้ชนะของเกมจากแต่ละตำแหน่ง สิ่งเหล่านี้รวมอยู่ใน AlphaGo Zero เพื่อให้สามารถฝึกอบรมและประเมินผลได้อย่างมีประสิทธิภาพยิ่งขึ้น

นี้ดูเหมือนง่าย counter กับผมเพราะจากมุมมองการออกแบบซอฟต์แวร์นี้ละเมิดหลักการแยกของความกังวล นั่นเป็นเหตุผลที่ฉันสงสัยว่าทำไมการผสานนี้ได้รับการพิสูจน์แล้วว่ามีประโยชน์

เทคนิคนี้ - การรวมงานที่แตกต่างกันในโครงข่ายประสาทเทียมเดียวเพื่อปรับปรุงประสิทธิภาพ - สามารถนำไปใช้กับเครือข่ายประสาทอื่น ๆ โดยทั่วไปหรือต้องใช้เงื่อนไขบางอย่างในการทำงานหรือไม่?

คำตอบ:


6

เหตุใดการผสานนี้จึงเป็นประโยชน์

หากคุณคิดถึงเครือข่ายคุณค่า / นโยบายที่ใช้ร่วมกันซึ่งประกอบด้วยส่วนประกอบที่ใช้ร่วมกัน (เลเยอร์เครือข่ายที่เหลือ) ที่มีส่วนประกอบของค่าและนโยบายด้านบนแทนที่จะแยกข้อกังวลมันมีเหตุผลมากกว่า

หลักฐานพื้นฐานคือส่วนที่ใช้ร่วมกันของเครือข่าย (ResNet) ให้การวางนัยทั่วไประดับสูงของอินพุต (สถานะของเกมที่นำไปสู่การย้าย) ซึ่งเป็นการนำเสนอที่ดีสำหรับทั้งค่าตื้นและเครือข่ายนโยบาย

เมื่อเป็นเช่นนั้นเราสามารถลดภาระการคำนวณได้มากโดยการฝึกอบรม ResNet ที่ใช้ร่วมกันเพียงครั้งเดียวและใช้มันสำหรับเครือข่ายที่ง่ายกว่าสองเครือข่ายมากกว่าการฝึกอบรม ResNets สองตัวสำหรับค่าและนโยบาย ในกรณีของพวกเขาการฝึกอบรมทั้งสองเข้าด้วยกันยังช่วยปรับปรุงการทำให้เป็นมาตรฐาน

โดยเฉพาะกระดาษอัลฟ่าซีโร่ของซิลเวอร์และคณะ , การควบคุม Game of Go โดยปราศจากความรู้ของมนุษย์กล่าวว่า:

การรวมนโยบายและมูลค่าเข้าด้วยกันในเครือข่ายเดียวช่วยลดความแม่นยำในการทำนายการย้าย แต่ลดข้อผิดพลาดของค่าและเพิ่มประสิทธิภาพการเล่นใน AlphaGo อีกประมาณ 600 Elo นี่เป็นส่วนหนึ่งเนื่องมาจากประสิทธิภาพการคำนวณที่ดีขึ้น แต่ที่สำคัญกว่านั้นคือวัตถุประสงค์สองประการที่ทำให้เครือข่ายกลายเป็นตัวแทนทั่วไปที่รองรับการใช้งานหลายกรณี

สามารถใช้เทคนิคนี้โดยทั่วไปหรือเฉพาะในกรณีพิเศษได้หรือไม่?

เช่นเดียวกับส่วนประกอบทั่วไปในไลบรารีซอฟต์แวร์มันจะสมเหตุสมผลเมื่อปัญหาที่คุณพยายามแก้ไขได้รับประโยชน์จากการเป็นตัวแทนที่ใช้ร่วมกัน

คุณสามารถใช้มันหากคุณเป็นตัวแยกประเภทการฝึกอบรมสำหรับงานที่คล้ายกันหรือการฝึกอบรมงานใหม่ด้วยข้อมูลเพียงเล็กน้อยซึ่งคุณมีลักษณนามที่ได้รับการฝึกฝนผ่านชุดข้อมูลขนาดใหญ่ที่คล้ายกัน

นอกเหนือไปแล้วมักจะใช้ในการรับรู้ภาพ เครือข่ายที่ผ่านการฝึกอบรมมาอย่างดีเช่นเครือข่ายการแข่งขันImageNet ILSVRCมักใช้เป็นจุดเริ่มต้น พวกเขาเป็นลักษณนามที่ได้รับการฝึกฝน (เป็นสัปดาห์!) ในภาพมากกว่าล้านภาพ

จากนั้นสมมติว่าคุณต้องการสร้างเครือข่ายเพื่อรับรู้แบรนด์จักรยานที่คุณชื่นชอบคุณเริ่มต้นด้วยการรับรู้ภาพทั่วไปที่ฝึกฝนบน ImageNet สับเลเยอร์สุดท้ายที่จัดหมวดหมู่จริง ("Border Collie") และเพิ่ม ลักษณนามใหม่ขนาดเล็กสำหรับเลือกจักรยานที่คุณสนใจเท่านั้น

เนื่องจากตัวจําแนกที่ผ่านการฝึกอบรมมาแล้วมีแนวคิดภาพระดับสูงซึ่งเป็นหน่วยการสร้างที่ดีสําหรับการรับรู้ภาพ

แน่นอนว่ามีหลายกรณีที่ปัญหาไม่ได้มีการใช้งานร่วมกันที่มีประโยชน์และจึงไม่ได้รับประโยชน์จากเครือข่ายรวม อย่างไรก็ตามมันเป็นเครื่องมือที่มีประโยชน์ในสถานการณ์ที่เหมาะสม

ค้นหาTransfer LearningหรือMulti-Task Learningเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้


หากใครต้องการใช้หลักการวิศวกรรมซอฟต์แวร์เพื่อวิเคราะห์สถาปัตยกรรมของโครงข่ายประสาทเทียมนี้ฉันก็จะชี้ให้เห็นว่าเครือข่ายบล็อกส่วนที่เหลือซึ่งค่าและหัวนโยบายจะให้เกียรติตามหลักการของ DRY โดยขึ้นอยู่กับส่วนประกอบเดียวกัน (เครือข่ายบล็อกที่เหลือ) เพื่อประมวลผลข้อมูลก่อนส่งข้อมูลนี้ไปยังส่วนประกอบอื่น ๆ ในไปป์ไลน์ (ค่าและหัวนโยบาย) พวกเขารับประกันว่าแต่ละคนจะประมวลผลการแสดงข้อมูลเดิมที่เหมือนกัน การทำซ้ำการประมวลผลนี้ด้วยสองเครือข่ายแยกกันเกือบจะรับประกันความแตกต่างเมื่อเวลาผ่านไป
sadakatsu
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.