เหตุใดการผสานนี้จึงเป็นประโยชน์
หากคุณคิดถึงเครือข่ายคุณค่า / นโยบายที่ใช้ร่วมกันซึ่งประกอบด้วยส่วนประกอบที่ใช้ร่วมกัน (เลเยอร์เครือข่ายที่เหลือ) ที่มีส่วนประกอบของค่าและนโยบายด้านบนแทนที่จะแยกข้อกังวลมันมีเหตุผลมากกว่า
หลักฐานพื้นฐานคือส่วนที่ใช้ร่วมกันของเครือข่าย (ResNet) ให้การวางนัยทั่วไประดับสูงของอินพุต (สถานะของเกมที่นำไปสู่การย้าย) ซึ่งเป็นการนำเสนอที่ดีสำหรับทั้งค่าตื้นและเครือข่ายนโยบาย
เมื่อเป็นเช่นนั้นเราสามารถลดภาระการคำนวณได้มากโดยการฝึกอบรม ResNet ที่ใช้ร่วมกันเพียงครั้งเดียวและใช้มันสำหรับเครือข่ายที่ง่ายกว่าสองเครือข่ายมากกว่าการฝึกอบรม ResNets สองตัวสำหรับค่าและนโยบาย ในกรณีของพวกเขาการฝึกอบรมทั้งสองเข้าด้วยกันยังช่วยปรับปรุงการทำให้เป็นมาตรฐาน
โดยเฉพาะกระดาษอัลฟ่าซีโร่ของซิลเวอร์และคณะ , การควบคุม Game of Go โดยปราศจากความรู้ของมนุษย์กล่าวว่า:
การรวมนโยบายและมูลค่าเข้าด้วยกันในเครือข่ายเดียวช่วยลดความแม่นยำในการทำนายการย้าย แต่ลดข้อผิดพลาดของค่าและเพิ่มประสิทธิภาพการเล่นใน AlphaGo อีกประมาณ 600 Elo นี่เป็นส่วนหนึ่งเนื่องมาจากประสิทธิภาพการคำนวณที่ดีขึ้น แต่ที่สำคัญกว่านั้นคือวัตถุประสงค์สองประการที่ทำให้เครือข่ายกลายเป็นตัวแทนทั่วไปที่รองรับการใช้งานหลายกรณี
สามารถใช้เทคนิคนี้โดยทั่วไปหรือเฉพาะในกรณีพิเศษได้หรือไม่?
เช่นเดียวกับส่วนประกอบทั่วไปในไลบรารีซอฟต์แวร์มันจะสมเหตุสมผลเมื่อปัญหาที่คุณพยายามแก้ไขได้รับประโยชน์จากการเป็นตัวแทนที่ใช้ร่วมกัน
คุณสามารถใช้มันหากคุณเป็นตัวแยกประเภทการฝึกอบรมสำหรับงานที่คล้ายกันหรือการฝึกอบรมงานใหม่ด้วยข้อมูลเพียงเล็กน้อยซึ่งคุณมีลักษณนามที่ได้รับการฝึกฝนผ่านชุดข้อมูลขนาดใหญ่ที่คล้ายกัน
นอกเหนือไปแล้วมักจะใช้ในการรับรู้ภาพ เครือข่ายที่ผ่านการฝึกอบรมมาอย่างดีเช่นเครือข่ายการแข่งขันImageNet ILSVRCมักใช้เป็นจุดเริ่มต้น พวกเขาเป็นลักษณนามที่ได้รับการฝึกฝน (เป็นสัปดาห์!) ในภาพมากกว่าล้านภาพ
จากนั้นสมมติว่าคุณต้องการสร้างเครือข่ายเพื่อรับรู้แบรนด์จักรยานที่คุณชื่นชอบคุณเริ่มต้นด้วยการรับรู้ภาพทั่วไปที่ฝึกฝนบน ImageNet สับเลเยอร์สุดท้ายที่จัดหมวดหมู่จริง ("Border Collie") และเพิ่ม ลักษณนามใหม่ขนาดเล็กสำหรับเลือกจักรยานที่คุณสนใจเท่านั้น
เนื่องจากตัวจําแนกที่ผ่านการฝึกอบรมมาแล้วมีแนวคิดภาพระดับสูงซึ่งเป็นหน่วยการสร้างที่ดีสําหรับการรับรู้ภาพ
แน่นอนว่ามีหลายกรณีที่ปัญหาไม่ได้มีการใช้งานร่วมกันที่มีประโยชน์และจึงไม่ได้รับประโยชน์จากเครือข่ายรวม อย่างไรก็ตามมันเป็นเครื่องมือที่มีประโยชน์ในสถานการณ์ที่เหมาะสม
ค้นหาTransfer LearningหรือMulti-Task Learningเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้