คำถามติดแท็ก q-learning

1
ความสัมพันธ์ระหว่าง Q-learning และวิธีการไล่ระดับสีนโยบายคืออะไร?
เท่าที่ฉันเข้าใจการเรียนรู้ Q- และการไล่ระดับสีนโยบาย (PG) เป็นสองแนวทางหลักที่ใช้ในการแก้ปัญหา RL ในขณะที่การเรียนรู้ Q มีวัตถุประสงค์เพื่อทำนายรางวัลของการกระทำบางอย่างที่เกิดขึ้นในบางสถานะการไล่ระดับสีของนโยบายจะทำนายการกระทำโดยตรง อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG) ความแตกต่างในวิธีการสูญเสียจะแพร่กระจายกลับ?

1
เหตุใด DQN จึงต้องการเครือข่ายสองเครือข่ายที่แตกต่างกัน
ผมจะผ่านนี้การดำเนินงานของ DQN และผมเห็นว่าในสาย 124 และ 125 สองเครือข่าย Q ที่แตกต่างกันได้รับการเริ่มต้น จากความเข้าใจของฉันฉันคิดว่าเครือข่ายหนึ่งทำนายการกระทำที่เหมาะสมและเครือข่ายที่สองทำนายค่าเป้าหมาย Q สำหรับการค้นหาข้อผิดพลาดของ Bellman ทำไมเราไม่สามารถสร้างเครือข่ายเดียวที่ทำนายค่า Q และใช้กับทั้งสองกรณีได้? การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด นี่เป็นเหตุผลเดียวหรือไม่ ฉันพลาดอะไรไปรึเปล่า?

2
เหตุใดการเรียนรู้แบบ Q ถึงไม่รวมกันเมื่อใช้การประมาณฟังก์ชั่น
อัลกอริทึม Q-learning แบบมีตารางรับประกันว่าจะหาสิ่งที่ดีที่สุด QQQ ฟังก์ชั่น Q∗Q∗Q^*ให้เงื่อนไขต่อไปนี้ (เงื่อนไขRobbins-Monro ) เกี่ยวกับอัตราการเรียนรู้เป็นที่พอใจ ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty ที่ไหน αt(s,a)αt(s,a)\alpha_t(s, a) หมายถึงอัตราการเรียนรู้ที่ใช้เมื่ออัปเดต QQQ ค่าที่เกี่ยวข้องกับรัฐ sss และการกระทำ aaa ในเวลาขั้นตอน tttที่ไหน 0≤αt(s,a)&lt;10≤αt(s,a)&lt;10 \leq \alpha_t(s, a) < 1 จะถือว่าเป็นจริงสำหรับทุกรัฐ sss และการกระทำ aaa. เห็นได้ชัดว่า 0≤αt(s,a)&lt;10≤αt(s,a)&lt;10 \leq \alpha_t(s, a) < 1เพื่อให้ทั้งสองเงื่อนไขเป็นจริงคู่การกระทำของรัฐทุกคนจะต้องเข้าชมอย่างไม่สิ้นสุดบ่อยครั้ง: นี่คือที่ระบุไว้ในหนังสือเสริมการเรียนรู้: การแนะนำนอกเหนือจากข้อเท็จจริงที่ว่านี้ควรเป็นที่รู้จักอย่างกว้างขวางและเป็นเหตุผล เบื้องหลังการใช้งานของϵϵ\epsilon- …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.