4
ทำไม Q-Learning ใช้ epsilon-โลภในระหว่างการทดสอบ?
ในบทความของ DeepMind เกี่ยวกับ Deep Q-Learning สำหรับวิดีโอเกมอาตาริ ( ที่นี่ ) พวกเขาใช้วิธีการ epsilon-โลภสำหรับการสำรวจในระหว่างการฝึกอบรม ซึ่งหมายความว่าเมื่อมีการเลือกการดำเนินการในการฝึกอบรมจะมีการเลือกว่าเป็นการกระทำที่มีค่า q สูงสุดหรือการกระทำแบบสุ่ม การเลือกระหว่างสองสิ่งนี้คือการสุ่มและขึ้นอยู่กับมูลค่าของ epsilon และ epsilon จะถูกทำให้อ่อนลงในระหว่างการฝึกอบรมซึ่งในขั้นต้นจะมีการดำเนินการแบบสุ่มจำนวนมาก (การสำรวจ) แต่ในขณะที่การฝึกอบรมดำเนินไป (การแสวงหาผลประโยชน์) จากนั้นในระหว่างการทดสอบพวกเขายังใช้วิธี epsilon-greedy แต่ด้วย epsilon ที่ค่าต่ำมากเช่นนั้นมีอคติที่แข็งแกร่งต่อการแสวงหาผลประโยชน์มากกว่าการสำรวจโดยนิยมเลือกการกระทำที่มีค่า q สูงกว่าการกระทำแบบสุ่ม อย่างไรก็ตามการกระทำแบบสุ่มบางครั้งยังคงถูกเลือก (5% ของเวลา) คำถามของฉันคือ: ทำไมการสำรวจใด ๆ ที่จำเป็นในตอนนี้เนื่องจากการฝึกอบรมได้ทำไปแล้ว? หากระบบได้เรียนรู้นโยบายที่ดีที่สุดแล้วเหตุใดจึงไม่สามารถเลือกการกระทำเป็นรายการที่มีค่า q สูงสุดได้เสมอ ไม่ควรทำการสำรวจเท่านั้นในการฝึกอบรมและเมื่อเรียนรู้นโยบายที่เหมาะสมแล้วตัวแทนก็สามารถเลือกการกระทำที่เหมาะสมที่สุดซ้ำ ๆ ได้? ขอบคุณ!