ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?

ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต

ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น?

กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

และส่วนที่ฉันพยายามเข้าใจคือ:

การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย

เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

— Karnivaurus
แหล่งที่มา

เพื่อให้แน่ใจว่าคุณกำลังฝึกอบรมตัวแทนของคุณเกี่ยวกับข้อมูลที่ไม่เกี่ยวข้องคุณไม่ควรอัปเดตหน่วยความจำของตัวแทนในแต่ละขั้นตอนแก้ไขขั้นตอนการจัดเก็บเพื่อสร้างความสัมพันธ์ในข้อมูล

— narjes karmani

ปัญหาหลักคือว่าในสาขาอื่น ๆ DNN สามารถฝึกอบรมได้ยาก นี่คือปัญหาหนึ่งคือความสัมพันธ์ของข้อมูลอินพุต: ถ้าคุณคิดเกี่ยวกับวิดีโอเกม (จริง ๆ แล้วพวกเขาใช้ทดสอบอัลกอริธึม) คุณสามารถจินตนาการได้ว่าภาพหน้าจอที่ดำเนินการหนึ่งขั้นตอนหลังจากนั้นมีความสัมพันธ์กันอย่างมาก สำหรับ NNs นั้นอาจเป็นปัญหาได้: การทำซ้ำหลาย ๆ ครั้งของการลดลงของการไล่ระดับสีบนอินพุตที่คล้ายคลึงกันและมีความสัมพันธ์กันอาจนำไปสู่ นี่เป็นสาเหตุที่พวกเขาใช้การเล่นซ้ำประสบการณ์: พวกเขาเก็บชุด "ภาพรวม" ของเกมจากนั้นสลับพวกเขาและเลือกขั้นตอนภายหลังเพื่อทำการฝึกอบรม ด้วยวิธีนี้ข้อมูลจะไม่สัมพันธ์กันอีกต่อไป จากนั้นพวกเขาสังเกตเห็นว่าในระหว่างการฝึกอบรมค่า Q (ทำนายโดย NN) สามารถเปลี่ยนนโยบายที่กำลังดำเนินอยู่ได้อย่างไร

— Dante
แหล่งที่มา

ด้วยข้อมูล "สับ" คุณหมายถึงการสุ่มประสบการณ์นอกลำดับตัวอย่างในชุดเล็กหรือไม่ สิ่งนี้สอดคล้องกับ "รางวัลในอนาคตที่ลดราคา" อย่างไรซึ่งดูเหมือนจะบอกเป็นนัย ๆ ถึงประสบการณ์แบบต่อเนื่อง

— isobretatel