การไล่ระดับสีนโยบายสามารถนำไปใช้ในกรณีของการกระทำหลายอย่างต่อเนื่องได้อย่างไร?
การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ (TRPO) และนโยบายการเพิ่มประสิทธิภาพ Proximal (PPO) เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่ล้ำสมัยสองขั้นตอน เมื่อใช้การกระทำแบบต่อเนื่องครั้งเดียวโดยปกติคุณจะต้องใช้การแจกแจงความน่าจะเป็นบางอย่าง (เช่น Gaussian) สำหรับฟังก์ชันการสูญเสีย รุ่นคร่าวๆคือ: L ( θ ) = บันทึก( P(a1) ) ,L(θ)=เข้าสู่ระบบ(P(a1))A,L(\theta) = \log(P(a_1)) A, ที่ไหน AAA เป็นข้อได้เปรียบของรางวัล P(a1)P(a1)P(a_1) โดดเด่นด้วย μμ\mu และ σ2σ2\sigma^2ที่ออกมาของเครือข่ายประสาทเช่นในสภาพแวดล้อมลูกตุ้มที่นี่: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py ปัญหาคือฉันไม่สามารถหารายงานใด ๆ เกี่ยวกับการกระทำต่อเนื่อง 2+ ครั้งโดยใช้การไล่ระดับสีนโยบาย (ไม่ใช่วิธีการที่นักวิจารณ์ที่ใช้วิธีการที่แตกต่างกันโดยการถ่ายโอนการไล่ระดับสีจาก Q-function) คุณรู้วิธีการทำสิ่งนี้โดยใช้ TRPO สำหรับการกระทำ 2 อย่างต่อเนื่องในสภาพแวดล้อม LunarLanderหรือไม่? วิธีการต่อไปนี้ถูกต้องสำหรับฟังก์ชั่นการสูญเสียการไล่ระดับสีนโยบาย L ( θ ) …