1
“ การเล่นซ้ำประสบการณ์” คืออะไรและมีประโยชน์อย่างไร
ฉันได้อ่าน DeepMind Atari ของ Google กระดาษและฉันพยายามที่จะเข้าใจแนวคิดของ "ประสบการณ์การเล่นใหม่ที่" การเล่นซ้ำประสบการณ์เกิดขึ้นในเอกสารการเรียนรู้เสริมอื่น ๆ จำนวนมาก (โดยเฉพาะกระดาษ AlphaGo) ดังนั้นฉันจึงต้องการเข้าใจวิธีการทำงาน ด้านล่างเป็นข้อความที่ตัดตอนมาบางส่วน อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น กระดาษจะทำอย่างละเอียดดังนี้: ขณะที่วิธีการที่มั่นคงอื่น ๆ ที่มีอยู่สำหรับการฝึกอบรมเครือข่ายประสาทในการตั้งค่าการเรียนรู้การเสริมแรงเช่นประสาทติดตั้ง Q-ย้ำวิธีการเหล่านี้เกี่ยวข้องกับการฝึกอบรมการทำซ้ำของเครือข่ายเดอโนโวหลายร้อยซ้ำ ดังนั้นวิธีการเหล่านี้ซึ่งแตกต่างจากอัลกอริทึมของเราจึงไม่มีประสิทธิภาพเกินกว่าที่จะใช้กับเครือข่ายประสาทขนาดใหญ่ได้สำเร็จ เรา parameterize ค่าตัวอย่างฟังก์ชั่นQ(s,a;θi)Q(s,a;θi)Q(s, a; \theta_i) . โดยใช้เครือข่ายประสาทลึกสับสนแสดงในรูปที่ 1 ซึ่งในθiθi\theta_iมีพารามิเตอร์ (นั่นคือน้ำหนัก) ของ Q-เครือข่ายที่ซ้ำฉันiiiในการเล่นซ้ำประสบการณ์เราเก็บประสบการณ์ของตัวแทนไว้et=(st,at,rt,st+1)et=(st,at,rt,st+1)e_t = (s_t, a_t, r_t, s_{t+1})ในแต่ละครั้งขั้นตอนtttในชุดข้อมูลDt={e1,…,et}Dt={e1,…,et}D_t = \{e_1, \dots, e_t \} } ในระหว่างการเรียนรู้เราใช้การปรับปรุง Q-learning กับตัวอย่าง (หรือชุดเล็ก ๆ ) …