ปัญญาประดิษฐ์ overfitting

ทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในตัวอย่างการเรียนรู้การเสริมแรง?

ฉันได้ดูการเรียนรู้การเสริมแรงและโดยเฉพาะการเล่นกับการสร้างสภาพแวดล้อมของตัวเองเพื่อใช้กับ OpenAI Gym AI ฉันกำลังใช้ตัวแทนจากโครงการ stable_baselines เพื่อทดสอบกับมัน สิ่งหนึ่งที่ฉันสังเกตเห็นได้ในตัวอย่าง RL เกือบทั้งหมดคือดูเหมือนจะไม่มีเลเยอร์ดรอปเอาต์ในเครือข่ายใด ๆ เลย ทำไมนี้ ฉันได้สร้างสภาพแวดล้อมที่จำลองราคาสกุลเงินและตัวแทนง่าย ๆ โดยใช้ DQN ที่พยายามเรียนรู้เวลาที่จะซื้อและขาย ฝึกมันมากกว่าหนึ่งล้าน timesteps นำมาจากชุดของข้อมูลที่เฉพาะเจาะจงซึ่งประกอบด้วยข้อมูลราคา 5 นาทีหนึ่งเดือนที่ดูเหมือนว่าจะมีค่าเกินจำนวนมาก ถ้าฉันประเมินเอเจนต์และโมเดลเทียบกับมูลค่าข้อมูลของเดือนอื่น ๆ ดังนั้นฟังดูเหมือนการโอเวอร์คลาสสิกแบบดั้งเดิม แต่มีเหตุผลทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในเครือข่าย RL หรือไม่ มีกลไกอื่น ๆ ที่จะลองและจัดการกับการสวมใส่เกินได้ไหม? หรือในตัวอย่าง RL หลายเรื่องไม่สำคัญ เช่นอาจมีเพียงวิธีเดียวที่แท้จริงในการทำคะแนนสูงสุดในเกม 'breakout' ดังนั้นคุณอาจจะเรียนรู้อย่างแน่นอนและไม่จำเป็นต้องพูดคุยกัน? หรือถือว่าเป็นธรรมชาติที่วุ่นวายของสภาพแวดล้อมเองควรให้ผลลัพธ์ที่แตกต่างกันมากพอที่คุณไม่จำเป็นต้องมีชั้นการออกกลางคัน

13 machine-learning reinforcement-learning overfitting dropout

เทคนิค“ การออกกลางคัน” คืออะไร?

วิธีการ "ออกกลางคัน" มีจุดประสงค์อะไรและจะปรับปรุงประสิทธิภาพโดยรวมของเครือข่ายประสาทอย่างไร

10 deep-network overfitting performance

คำถามติดแท็ก overfitting