การไล่ระดับสีนโยบายสามารถนำไปใช้ในกรณีของการกระทำหลายอย่างต่อเนื่องได้อย่างไร?

การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ (TRPO) และนโยบายการเพิ่มประสิทธิภาพ Proximal (PPO) เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่ล้ำสมัยสองขั้นตอน

เมื่อใช้การกระทำแบบต่อเนื่องครั้งเดียวโดยปกติคุณจะต้องใช้การแจกแจงความน่าจะเป็นบางอย่าง (เช่น Gaussian) สำหรับฟังก์ชันการสูญเสีย รุ่นคร่าวๆคือ:

L (θ) = เข้าสู่ระบบ (P (a_{1})) A,

$L(\theta) = \log(P(a_1)) A,$

ที่ไหน $A$ เป็นข้อได้เปรียบของรางวัล $P(a_1)$ โดดเด่นด้วย $\mu$ และ $\sigma^2$ ที่ออกมาของเครือข่ายประสาทเช่นในสภาพแวดล้อมลูกตุ้มที่นี่: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py

ปัญหาคือฉันไม่สามารถหารายงานใด ๆ เกี่ยวกับการกระทำต่อเนื่อง 2+ ครั้งโดยใช้การไล่ระดับสีนโยบาย (ไม่ใช่วิธีการที่นักวิจารณ์ที่ใช้วิธีการที่แตกต่างกันโดยการถ่ายโอนการไล่ระดับสีจาก Q-function)

คุณรู้วิธีการทำสิ่งนี้โดยใช้ TRPO สำหรับการกระทำ 2 อย่างต่อเนื่องในสภาพแวดล้อม LunarLanderหรือไม่?

วิธีการต่อไปนี้ถูกต้องสำหรับฟังก์ชั่นการสูญเสียการไล่ระดับสีนโยบาย

L (θ) = (เข้าสู่ระบบ P (a_{)} + เข้าสู่ระบบ P (a_{2})) * * * * A

$L(\theta) = (\log P(a_) + \log P(a_2) )*A$

deep-learning reinforcement-learning trpo

— Evalds Urtans
แหล่งที่มา

ดังที่คุณได้กล่าวไปแล้วการกระทำที่ได้รับการแต่งตั้งโดยนักแสดง - นักวิจารณ์มักมาจากการแจกแจงแบบปกติและเป็นหน้าที่ของตัวแทนในการหาค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่เหมาะสมตามสถานะปัจจุบัน ในหลายกรณีการกระจายครั้งเดียวนี้เพียงพอเนื่องจากต้องการการดำเนินการอย่างต่อเนื่องเพียง 1 ครั้ง อย่างไรก็ตามเมื่อโดเมนเช่นหุ่นยนต์กลายเป็นบูรณาการกับ AI สถานการณ์ที่จำเป็นต้องมีการดำเนินการอย่างต่อเนื่อง 2 ครั้งหรือมากกว่านั้นเป็นปัญหาที่เพิ่มขึ้น

มีวิธีแก้ปัญหา 2 ปัญหา: สิ่งแรกและที่พบบ่อยที่สุดคือสำหรับทุกการกระทำอย่างต่อเนื่องมีตัวแทนแยกต่างหากที่เรียนรู้ค่าเฉลี่ย 1 มิติและส่วนเบี่ยงเบนมาตรฐาน ส่วนหนึ่งของรัฐรวมถึงการกระทำของตัวแทนอื่น ๆ เช่นกันเพื่อให้บริบทของสิ่งที่ทั้งระบบกำลังทำอยู่ เรามักจะทำสิ่งนี้ในห้องแล็บของฉันและนี่เป็นบทความที่อธิบายวิธีการนี้กับตัวแทนนักวิจารณ์ 3 คนที่ทำงานร่วมกันเพื่อย้ายแขนหุ่นยนต์

วิธีที่สองคือการให้ตัวแทนหนึ่งคนค้นหาการกระจายของหลายตัวแปร (ปกติแล้วปกติ)ของนโยบาย แม้ว่าในทางทฤษฎีวิธีการนี้อาจมีการกระจายนโยบายที่กระชับมากขึ้นโดย "การหมุน" การกระจายตามเมทริกซ์ความแปรปรวนร่วมซึ่งหมายความว่าค่าทั้งหมดของเมทริกซ์ความแปรปรวนร่วมต้องเรียนรู้เช่นกัน สิ่งนี้จะเพิ่มจำนวนของค่าที่ต้องเรียนรู้ $n$ ผลผลิตต่อเนื่องจาก $2n$ (mean และ stddev) ถึง $n+n^2$ ( $n$ หมายถึงและ $n \times n$ เมทริกซ์ร่วมแปรปรวน) ข้อเสียเปรียบนี้ทำให้วิธีนี้ไม่เป็นที่นิยมในวรรณคดี

นี่เป็นคำตอบทั่วไปเพิ่มเติม แต่ควรช่วยคุณและผู้อื่นเกี่ยวกับปัญหาที่เกี่ยวข้อง

— Jaden Travnik
แหล่งที่มา

Jaden ขอบคุณสำหรับคำตอบที่ดี 1. ฉันลองสถาปัตยกรรมหลายเอเจนต์ แต่มันก็ไม่ได้มีประสิทธิภาพมาก ใช้เวลานานกว่าจะมาบรรจบกัน 2. ตอนนี้การกระจายหลายตัวแปรก็เห็นได้ชัดสำหรับฉันเช่นกันขอบคุณ

— Evalds Urtans

ขึ้นอยู่กับแอพพลิเคชั่นและสถาปัตยกรรม (หากเป็นเครือข่ายลึก) คุณสามารถให้ตัวแทนแบ่งปันคุณสมบัติระดับต่ำและให้พวกเขาแยกสาขาออกเป็นฟังก์ชันค่าของตนเอง นอกจากนี้การมีนักวิจารณ์ 1 คนและนักแสดงหลายคนก็เป็นวิธีเพิ่มสถาปัตยกรรม

— Jaden Travnik

ในขณะนี้ฉันต้องการใช้ข้อเสนอแนะของคุณกับ TRPO (เพียงวิธีการไล่ระดับนโยบาย) ไม่ใช่นักวิจารณ์นักแสดง ฉันไม่ค่อยมั่นใจในการไล่ระดับสีจากนักวิจารณ์ไปยังนักแสดง - ในการนำไปใช้หลายครั้งฉันเห็นว่ามันไม่ควรใช้งานแม้ว่ามันจะมาบรรจบกันก็ตาม

— Evalds Urtans

ขออภัยสำหรับคำถาม noob: วิธีนี้ใช้ได้กับวิธีการที่นักวิจารณ์ (ซึ่งนักแสดงสามารถดำเนินการต่อเนื่องหลายอย่างพร้อมกัน) ซึ่งนักแสดงมีหน้าที่นโยบายและได้รับการฝึกอบรมโดยวิธีการไล่ระดับนโยบาย? @JadenTravnik คุณช่วยอธิบายได้ไหมในคำตอบภายใต้หัวข้อใหม่?

— Gokul NC