4
จะจัดการกับการเคลื่อนไหวที่ไม่ถูกต้องในการเรียนรู้การเสริมแรงได้อย่างไร?
ฉันต้องการสร้าง AI ซึ่งสามารถเล่นห้าในแถว / gomoku ดังที่ฉันพูดถึงในชื่อเรื่องฉันต้องการใช้การเรียนรู้เสริมแรงสำหรับสิ่งนี้ ฉันใช้วิธีการไล่ระดับสีนโยบายคือ REINFORCE ที่มีพื้นฐาน สำหรับการประมาณค่าและนโยบายการทำงานของผมใช้โครงข่ายประสาทเทียม มันมีเลเยอร์ convolutional และเชื่อมต่ออย่างเต็มที่ เลเยอร์ทั้งหมดยกเว้นการส่งออกจะถูกแชร์ ชั้นผลผลิตของนโยบายมี8 × 8 = 648×8=648 \times 8=64 (ขนาดของคณะกรรมการ) หน่วยส่งออกและsoftmaxกับพวกเขา ดังนั้นมันจึงสุ่ม แต่ถ้าเครือข่ายสร้างความน่าจะเป็นสูงมากสำหรับการย้ายที่ไม่ถูกต้อง การย้ายที่ไม่ถูกต้องคือเมื่อตัวแทนต้องการตรวจสอบสี่เหลี่ยมที่มีหนึ่ง "X" หรือ "O" ฉันคิดว่ามันสามารถติดอยู่ในสถานะเกมนั้น คุณช่วยแนะนำวิธีแก้ปัญหาสำหรับปัญหานี้ได้ไหม? ฉันเดาว่าจะใช้วิธีการของนักวิจารณ์ สำหรับการย้ายที่ไม่ถูกต้องเราควรให้รางวัลเป็นค่าลบและส่งต่อให้ฝ่ายตรงข้าม