เหตุใด DQN จึงต้องการเครือข่ายสองเครือข่ายที่แตกต่างกัน


12

ผมจะผ่านนี้การดำเนินงานของ DQN และผมเห็นว่าในสาย 124 และ 125 สองเครือข่าย Q ที่แตกต่างกันได้รับการเริ่มต้น จากความเข้าใจของฉันฉันคิดว่าเครือข่ายหนึ่งทำนายการกระทำที่เหมาะสมและเครือข่ายที่สองทำนายค่าเป้าหมาย Q สำหรับการค้นหาข้อผิดพลาดของ Bellman

ทำไมเราไม่สามารถสร้างเครือข่ายเดียวที่ทำนายค่า Q และใช้กับทั้งสองกรณีได้? การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด นี่เป็นเหตุผลเดียวหรือไม่ ฉันพลาดอะไรไปรึเปล่า?

คำตอบ:


9

การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด

มันไม่มีผลกระทบต่อเวลาคำนวณอย่างแท้จริงนอกจากการเพิ่มขึ้นเล็กน้อย (เนื่องจากหน่วยความจำพิเศษที่ใช้โดยเครือข่ายสองเครือข่าย) คุณสามารถแคชผลลัพธ์ของเครือข่ายเป้าหมายที่ฉันคิด แต่อาจไม่คุ้มค่ากับสภาพแวดล้อมส่วนใหญ่และฉันไม่เห็นการใช้งานที่ทำเช่นนั้น

ฉันพลาดอะไรไปรึเปล่า?

มันจะทำอย่างไรกับความเสถียรของอัลกอริทึม Q-learning เมื่อใช้การประมาณฟังก์ชั่น (เช่นเครือข่ายประสาท) การใช้เครือข่ายเป้าหมายแยกต่างหากอัพเดตทุก ๆ ขั้นตอนด้วยสำเนาของพารามิเตอร์ที่เรียนรู้ล่าสุดช่วยป้องกันอคติจากการบูตสแตรปจากการครอบครองระบบเป็นตัวเลขทำให้ค่า Q โดยประมาณเบี่ยงเบนไป

ลองนึกภาพหนึ่งในจุดข้อมูล (ที่S, A, R, S') ทำให้การประเมินQ(S', A')ที่แย่เกินไปในปัจจุบันแย่ลง อาจจะS', A'ยังไม่ได้เยี่ยมชมเลยหรือคุณค่าของการRมองเห็นสูงกว่าค่าเฉลี่ยโดยบังเอิญ ถ้าตัวอย่างของ(S,A)การตัดขึ้นหลายครั้งในประสบการณ์การเล่นใหม่ก็จะได้รับเลวร้ายอีกครั้งในแต่ละครั้งเนื่องจากการปรับปรุงที่จะอยู่บนพื้นฐานของQ(S,A) R + max_a Q(S',a)การแก้ไขเครือข่ายเป้าหมายจะจำกัดความเสียหายที่เกินกว่าที่คาดการณ์ไว้สามารถทำได้ให้เวลาเครือข่ายการเรียนรู้เพื่อรวมและสูญเสียอคติเริ่มแรก

ในแง่นี้การใช้เครือข่ายเป้าหมายแยกต่างหากมีจุดประสงค์คล้ายกันมากในการรับชมซ้ำ มันทำให้อัลกอริทึมคงที่ซึ่งมีปัญหาการบรรจบกัน

นอกจากนี้ยังเป็นไปได้ที่จะมี DQN ด้วย "การเรียนรู้สองครั้ง" เพื่อแก้ไขปัญหาแยกต่างหาก: อคติสูงสุด ในกรณีนี้คุณอาจเห็นการใช้งาน DQN กับเครือข่ายประสาทเทียม 4 เครือข่าย


สำหรับการอ่านเพิ่มเติมเราสามารถอ้างถึงaaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847
amitection
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.