ปัญญาประดิษฐ์ dqn

เหตุใด DQN จึงต้องการเครือข่ายสองเครือข่ายที่แตกต่างกัน

ผมจะผ่านนี้การดำเนินงานของ DQN และผมเห็นว่าในสาย 124 และ 125 สองเครือข่าย Q ที่แตกต่างกันได้รับการเริ่มต้น จากความเข้าใจของฉันฉันคิดว่าเครือข่ายหนึ่งทำนายการกระทำที่เหมาะสมและเครือข่ายที่สองทำนายค่าเป้าหมาย Q สำหรับการค้นหาข้อผิดพลาดของ Bellman ทำไมเราไม่สามารถสร้างเครือข่ายเดียวที่ทำนายค่า Q และใช้กับทั้งสองกรณีได้? การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด นี่เป็นเหตุผลเดียวหรือไม่ ฉันพลาดอะไรไปรึเปล่า?

12 reinforcement-learning q-learning dqn

คำถามติดแท็ก dqn