ความแตกต่างระหว่างตอนและยุคในการเรียนรู้ Q ลึกคืออะไร?


14

ฉันกำลังพยายามทำความเข้าใจกับกระดาษที่มีชื่อเสียง "Playing Atari with Deep Reinforcement Learning" ( pdf ) ผมไม่มีความชัดเจนเกี่ยวกับความแตกต่างระหว่างนั้นยุคและตอน ในขั้นตอนวิธีการ , ห่วงด้านนอกเป็นมากกว่าตอนในขณะที่ในรูปที่แกน x จะมีป้ายยุค ในบริบทของการเสริมแรงการเรียนรู้ฉันไม่ชัดเจนว่ายุคหมายถึงอะไร ยุคเป็นวงรอบนอกของลูปตอนหรือไม่ 12

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


1
ดังนั้น ... มีกี่ตอนที่ทำให้เกิดยุค
Lewen

คำตอบ:


10
  • ตอนหนึ่ง= หนึ่งลำดับของรัฐการกระทำและรางวัลซึ่งลงท้ายด้วยสถานะเทอร์มินัล ตัวอย่างเช่นการเล่นเกมทั้งหมดถือได้ว่าเป็นหนึ่งตอนสถานะของเทอร์มินัลจะถูกเข้าถึงเมื่อผู้เล่นคนหนึ่งแพ้ / ชนะ / เสมอ บางครั้งเราอาจต้องการกำหนดหนึ่งตอนเป็นหลาย ๆ เกม ( ตัวอย่าง : "แต่ละตอนเป็นเกมสองสามโหลเพราะเกมมีคะแนน 21 คะแนนสำหรับผู้เล่นทั้งสอง")
  • one epoch =หนึ่ง pass forward และ one backward pass ของตัวอย่างการฝึกอบรมทั้งหมด, ในศัพท์เครือข่ายประสาท

ในกระดาษที่คุณพูดถึงพวกเขาดูเหมือนจะยืดหยุ่นมากขึ้นเกี่ยวกับความหมายของยุคเนื่องจากพวกเขาเพิ่งกำหนดหนึ่งยุคว่าเป็นการปรับปรุงน้ำหนักจำนวนหนึ่ง ดังนั้นคุณสามารถดูหนึ่งยุคว่าเป็นวงรอบนอกรอบลูปตอนที่คุณพูดถึงในคำถาม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.