คำถามติดแท็ก overfitting

1
ทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในตัวอย่างการเรียนรู้การเสริมแรง?
ฉันได้ดูการเรียนรู้การเสริมแรงและโดยเฉพาะการเล่นกับการสร้างสภาพแวดล้อมของตัวเองเพื่อใช้กับ OpenAI Gym AI ฉันกำลังใช้ตัวแทนจากโครงการ stable_baselines เพื่อทดสอบกับมัน สิ่งหนึ่งที่ฉันสังเกตเห็นได้ในตัวอย่าง RL เกือบทั้งหมดคือดูเหมือนจะไม่มีเลเยอร์ดรอปเอาต์ในเครือข่ายใด ๆ เลย ทำไมนี้ ฉันได้สร้างสภาพแวดล้อมที่จำลองราคาสกุลเงินและตัวแทนง่าย ๆ โดยใช้ DQN ที่พยายามเรียนรู้เวลาที่จะซื้อและขาย ฝึกมันมากกว่าหนึ่งล้าน timesteps นำมาจากชุดของข้อมูลที่เฉพาะเจาะจงซึ่งประกอบด้วยข้อมูลราคา 5 นาทีหนึ่งเดือนที่ดูเหมือนว่าจะมีค่าเกินจำนวนมาก ถ้าฉันประเมินเอเจนต์และโมเดลเทียบกับมูลค่าข้อมูลของเดือนอื่น ๆ ดังนั้นฟังดูเหมือนการโอเวอร์คลาสสิกแบบดั้งเดิม แต่มีเหตุผลทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในเครือข่าย RL หรือไม่ มีกลไกอื่น ๆ ที่จะลองและจัดการกับการสวมใส่เกินได้ไหม? หรือในตัวอย่าง RL หลายเรื่องไม่สำคัญ เช่นอาจมีเพียงวิธีเดียวที่แท้จริงในการทำคะแนนสูงสุดในเกม 'breakout' ดังนั้นคุณอาจจะเรียนรู้อย่างแน่นอนและไม่จำเป็นต้องพูดคุยกัน? หรือถือว่าเป็นธรรมชาติที่วุ่นวายของสภาพแวดล้อมเองควรให้ผลลัพธ์ที่แตกต่างกันมากพอที่คุณไม่จำเป็นต้องมีชั้นการออกกลางคัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.