ฉันได้อ่าน DeepMind Atari ของ Google กระดาษและฉันพยายามที่จะเข้าใจแนวคิดของ "ประสบการณ์การเล่นใหม่ที่" การเล่นซ้ำประสบการณ์เกิดขึ้นในเอกสารการเรียนรู้เสริมอื่น ๆ จำนวนมาก (โดยเฉพาะกระดาษ AlphaGo) ดังนั้นฉันจึงต้องการเข้าใจวิธีการทำงาน ด้านล่างเป็นข้อความที่ตัดตอนมาบางส่วน
อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น
กระดาษจะทำอย่างละเอียดดังนี้:
ขณะที่วิธีการที่มั่นคงอื่น ๆ ที่มีอยู่สำหรับการฝึกอบรมเครือข่ายประสาทในการตั้งค่าการเรียนรู้การเสริมแรงเช่นประสาทติดตั้ง Q-ย้ำวิธีการเหล่านี้เกี่ยวข้องกับการฝึกอบรมการทำซ้ำของเครือข่ายเดอโนโวหลายร้อยซ้ำ ดังนั้นวิธีการเหล่านี้ซึ่งแตกต่างจากอัลกอริทึมของเราจึงไม่มีประสิทธิภาพเกินกว่าที่จะใช้กับเครือข่ายประสาทขนาดใหญ่ได้สำเร็จ เรา parameterize ค่าตัวอย่างฟังก์ชั่น . โดยใช้เครือข่ายประสาทลึกสับสนแสดงในรูปที่ 1 ซึ่งในมีพารามิเตอร์ (นั่นคือน้ำหนัก) ของ Q-เครือข่ายที่ซ้ำฉันในการเล่นซ้ำประสบการณ์เราเก็บประสบการณ์ของตัวแทนไว้ในแต่ละครั้งขั้นตอนในชุดข้อมูล } ในระหว่างการเรียนรู้เราใช้การปรับปรุง Q-learning กับตัวอย่าง (หรือชุดเล็ก ๆ ) ของประสบการณ์สุ่มอย่างสม่ำเสมอจากกลุ่มที่เก็บไว้ การอัพเดท Q-learning ตอนนี้ใช้ฟังก์ชันการสูญเสียต่อไปนี้:
ประสบการณ์การเล่นซ้ำคืออะไรและประโยชน์ของมันคืออะไรในแง่ของอุปัฏฐาก?