การไล่ระดับสีนโยบายสามารถนำไปใช้ในกรณีของการกระทำหลายอย่างต่อเนื่องได้อย่างไร?


11

การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ (TRPO) และนโยบายการเพิ่มประสิทธิภาพ Proximal (PPO) เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่ล้ำสมัยสองขั้นตอน

เมื่อใช้การกระทำแบบต่อเนื่องครั้งเดียวโดยปกติคุณจะต้องใช้การแจกแจงความน่าจะเป็นบางอย่าง (เช่น Gaussian) สำหรับฟังก์ชันการสูญเสีย รุ่นคร่าวๆคือ:

L(θ)=เข้าสู่ระบบ(P(a1))A,

ที่ไหน A เป็นข้อได้เปรียบของรางวัล P(a1) โดดเด่นด้วย μ และ σ2ที่ออกมาของเครือข่ายประสาทเช่นในสภาพแวดล้อมลูกตุ้มที่นี่: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py

ปัญหาคือฉันไม่สามารถหารายงานใด ๆ เกี่ยวกับการกระทำต่อเนื่อง 2+ ครั้งโดยใช้การไล่ระดับสีนโยบาย (ไม่ใช่วิธีการที่นักวิจารณ์ที่ใช้วิธีการที่แตกต่างกันโดยการถ่ายโอนการไล่ระดับสีจาก Q-function)

คุณรู้วิธีการทำสิ่งนี้โดยใช้ TRPO สำหรับการกระทำ 2 อย่างต่อเนื่องในสภาพแวดล้อม LunarLanderหรือไม่?

วิธีการต่อไปนี้ถูกต้องสำหรับฟังก์ชั่นการสูญเสียการไล่ระดับสีนโยบาย

L(θ)=(เข้าสู่ระบบP(a)+เข้าสู่ระบบP(a2))* * * *A

คำตอบ:


6

ดังที่คุณได้กล่าวไปแล้วการกระทำที่ได้รับการแต่งตั้งโดยนักแสดง - นักวิจารณ์มักมาจากการแจกแจงแบบปกติและเป็นหน้าที่ของตัวแทนในการหาค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่เหมาะสมตามสถานะปัจจุบัน ในหลายกรณีการกระจายครั้งเดียวนี้เพียงพอเนื่องจากต้องการการดำเนินการอย่างต่อเนื่องเพียง 1 ครั้ง อย่างไรก็ตามเมื่อโดเมนเช่นหุ่นยนต์กลายเป็นบูรณาการกับ AI สถานการณ์ที่จำเป็นต้องมีการดำเนินการอย่างต่อเนื่อง 2 ครั้งหรือมากกว่านั้นเป็นปัญหาที่เพิ่มขึ้น

มีวิธีแก้ปัญหา 2 ปัญหา: สิ่งแรกและที่พบบ่อยที่สุดคือสำหรับทุกการกระทำอย่างต่อเนื่องมีตัวแทนแยกต่างหากที่เรียนรู้ค่าเฉลี่ย 1 มิติและส่วนเบี่ยงเบนมาตรฐาน ส่วนหนึ่งของรัฐรวมถึงการกระทำของตัวแทนอื่น ๆ เช่นกันเพื่อให้บริบทของสิ่งที่ทั้งระบบกำลังทำอยู่ เรามักจะทำสิ่งนี้ในห้องแล็บของฉันและนี่เป็นบทความที่อธิบายวิธีการนี้กับตัวแทนนักวิจารณ์ 3 คนที่ทำงานร่วมกันเพื่อย้ายแขนหุ่นยนต์

วิธีที่สองคือการให้ตัวแทนหนึ่งคนค้นหาการกระจายของหลายตัวแปร (ปกติแล้วปกติ)ของนโยบาย แม้ว่าในทางทฤษฎีวิธีการนี้อาจมีการกระจายนโยบายที่กระชับมากขึ้นโดย "การหมุน" การกระจายตามเมทริกซ์ความแปรปรวนร่วมซึ่งหมายความว่าค่าทั้งหมดของเมทริกซ์ความแปรปรวนร่วมต้องเรียนรู้เช่นกัน สิ่งนี้จะเพิ่มจำนวนของค่าที่ต้องเรียนรู้n ผลผลิตต่อเนื่องจาก 2n (mean และ stddev) ถึง n+n2 (n หมายถึงและ n×nเมทริกซ์ร่วมแปรปรวน) ข้อเสียเปรียบนี้ทำให้วิธีนี้ไม่เป็นที่นิยมในวรรณคดี

นี่เป็นคำตอบทั่วไปเพิ่มเติม แต่ควรช่วยคุณและผู้อื่นเกี่ยวกับปัญหาที่เกี่ยวข้อง


1
Jaden ขอบคุณสำหรับคำตอบที่ดี 1. ฉันลองสถาปัตยกรรมหลายเอเจนต์ แต่มันก็ไม่ได้มีประสิทธิภาพมาก ใช้เวลานานกว่าจะมาบรรจบกัน 2. ตอนนี้การกระจายหลายตัวแปรก็เห็นได้ชัดสำหรับฉันเช่นกันขอบคุณ
Evalds Urtans

1
ขึ้นอยู่กับแอพพลิเคชั่นและสถาปัตยกรรม (หากเป็นเครือข่ายลึก) คุณสามารถให้ตัวแทนแบ่งปันคุณสมบัติระดับต่ำและให้พวกเขาแยกสาขาออกเป็นฟังก์ชันค่าของตนเอง นอกจากนี้การมีนักวิจารณ์ 1 คนและนักแสดงหลายคนก็เป็นวิธีเพิ่มสถาปัตยกรรม
Jaden Travnik

ในขณะนี้ฉันต้องการใช้ข้อเสนอแนะของคุณกับ TRPO (เพียงวิธีการไล่ระดับนโยบาย) ไม่ใช่นักวิจารณ์นักแสดง ฉันไม่ค่อยมั่นใจในการไล่ระดับสีจากนักวิจารณ์ไปยังนักแสดง - ในการนำไปใช้หลายครั้งฉันเห็นว่ามันไม่ควรใช้งานแม้ว่ามันจะมาบรรจบกันก็ตาม
Evalds Urtans

1
ขออภัยสำหรับคำถาม noob: วิธีนี้ใช้ได้กับวิธีการที่นักวิจารณ์ (ซึ่งนักแสดงสามารถดำเนินการต่อเนื่องหลายอย่างพร้อมกัน) ซึ่งนักแสดงมีหน้าที่นโยบายและได้รับการฝึกอบรมโดยวิธีการไล่ระดับนโยบาย? @JadenTravnik คุณช่วยอธิบายได้ไหมในคำตอบภายใต้หัวข้อใหม่?
Gokul NC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.