เกม DQN Atari ของ DeepMind คือการเรียนรู้พร้อมกันไหม?


9

DeepMind ระบุว่าเครือข่าย Q ลึก (DQN) ของพวกเขาสามารถปรับพฤติกรรมของตนได้อย่างต่อเนื่องในขณะที่เรียนรู้ที่จะเล่น 49 เกมของอาตาริ

หลังจากเรียนรู้เกมทั้งหมดที่มีโครงข่ายประสาทเดียวกันตัวแทนสามารถเล่นได้ทุกระดับใน 'เหนือมนุษย์' พร้อมกัน (เมื่อใดก็ตามที่มีการนำเสนอแบบสุ่มกับเกมใดเกมหนึ่ง) หรือจะทำได้ดีในเกมเดียวในแต่ละครั้งเนื่องจากการสลับ จำเป็นต้องเรียนรู้อีกครั้งหรือไม่


"หลังจากเรียนรู้เกมทั้งหมดที่มีโครงข่ายประสาทเดียวกัน" นี่หมายถึงสถาปัตยกรรม NN เดียวกันหรือสถาปัตยกรรมเดียวกันและน้ำหนักชุดเดียวหรือไม่
Ankur

@Ankur จริง ๆ แล้วฉันไม่แน่ใจ - เป็นความเข้าใจ (จำกัด ) ของฉันว่าพวกเขาใช้สถาปัตยกรรมเดียวกันและไม่ได้รีเซ็ตน้ำหนักระหว่างเกม
ดิออน

คำตอบ:


2

การสลับต้องเรียนรู้อีกครั้ง

นอกจากนี้โปรดทราบว่า :

เราใช้สถาปัตยกรรมเครือข่ายเดียวกันอัลกอริทึมการเรียนรู้และการตั้งค่าพารามิเตอร์ในเกมทั้งเจ็ดแสดงให้เห็นว่าวิธีการของเรานั้นแข็งแกร่งพอที่จะทำงานในเกมที่หลากหลายโดยไม่ต้องรวมข้อมูลเฉพาะของเกม ในขณะที่เราประเมินตัวแทนของเราในเกมจริงและที่ไม่มีการดัดแปลงเราทำการเปลี่ยนแปลงโครงสร้างรางวัลของเกมระหว่างการฝึกอบรมเท่านั้น

และ

เครือข่ายมีประสิทธิภาพสูงกว่าอัลกอริทึม RL ก่อนหน้านี้ทั้งหมดในหกเกมเจ็ดเกมที่เราได้ลองและแซงหน้าผู้เล่นมนุษย์ที่มีความเชี่ยวชาญในสามเกม


1

การสลับต้องใช้การเรียนรู้อีกครั้งเครือข่ายไม่มีน้ำหนักชุดเดียวที่อนุญาตให้เล่นเกมทั้งหมดได้ดี นี่คือสาเหตุของปัญหาการลืมภัยพิบัติ

อย่างไรก็ตามมีการทำงานล่าสุดเพื่อแก้ไขปัญหานี้:

"การเอาชนะความหายนะที่ลืมไปในเครือข่ายประสาทเทียม", 2016

Paper: https://arxiv.org/pdf/1612.00796v1.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.