คำถามติดแท็ก dqn

1
เหตุใด DQN จึงต้องการเครือข่ายสองเครือข่ายที่แตกต่างกัน
ผมจะผ่านนี้การดำเนินงานของ DQN และผมเห็นว่าในสาย 124 และ 125 สองเครือข่าย Q ที่แตกต่างกันได้รับการเริ่มต้น จากความเข้าใจของฉันฉันคิดว่าเครือข่ายหนึ่งทำนายการกระทำที่เหมาะสมและเครือข่ายที่สองทำนายค่าเป้าหมาย Q สำหรับการค้นหาข้อผิดพลาดของ Bellman ทำไมเราไม่สามารถสร้างเครือข่ายเดียวที่ทำนายค่า Q และใช้กับทั้งสองกรณีได้? การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด นี่เป็นเหตุผลเดียวหรือไม่ ฉันพลาดอะไรไปรึเปล่า?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.