คำถามติดแท็ก reinforcement-learning

สำหรับคำถามที่เกี่ยวข้องกับการเรียนรู้ที่ควบคุมโดยการเสริมแรงเชิงบวกภายนอกหรือสัญญาณตอบรับเชิงลบหรือทั้งสองอย่างซึ่งการเรียนรู้และการใช้สิ่งที่เรียนรู้มาจนถึงตอนนี้จะเกิดขึ้นพร้อมกัน

2
เหตุใดพื้นฐานจึงมีเงื่อนไขตามสถานะในบางช่วงเวลาที่เป็นกลาง
ในหุ่นยนต์เทคนิคการเรียนรู้การเสริมแรงจะใช้สำหรับการค้นหารูปแบบการควบคุมสำหรับหุ่นยนต์ น่าเสียดายที่วิธีการไล่ระดับนโยบายส่วนใหญ่มีความเอนเอียงทางสถิติซึ่งสามารถนำหุ่นยนต์ไปสู่สถานการณ์ที่ไม่ปลอดภัยดูหน้า 2 ในJan Peters และ Stefan Schaal: การเสริมแรงการเรียนรู้ทักษะยนต์ด้วยการไล่ระดับนโยบาย, 2008 ด้วยการเรียนรู้ดั้งเดิมของมอเตอร์มันเป็นไปได้ที่จะเอาชนะปัญหานี้ได้เนื่องจากการปรับพารามิเตอร์พารามิเตอร์ gradient ของนโยบายนำขั้นตอนการเรียนรู้ไปสู่เป้าหมาย เครื่องหมายคำพูด:“ ถ้าการประมาณการไล่ระดับสีไม่เป็นกลางและอัตราการเรียนรู้เป็นไปตามผลรวม (a) = 0 กระบวนการเรียนรู้นั้นรับประกันว่าจะมาบรรจบกันอย่างน้อยที่สุดในระดับท้องถิ่น [... ] ดังนั้นเราต้องประเมินการไล่ระดับนโยบายจากข้อมูลที่สร้างขึ้นเท่านั้น ระหว่างการทำงานของงาน ” (หน้า 4 ของกระดาษเดียวกัน) ในการบ้านสำหรับชั้นเรียน Berkeley RLปัญหา 1 มันขอให้คุณแสดงให้เห็นว่าการไล่ระดับนโยบายยังคงเป็นกลางหากการลบล้างพื้นฐานเป็นหน้าที่ของรัฐที่ประทับเวลา t ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 ฉันกำลังดิ้นรนผ่านขั้นตอนแรกของการพิสูจน์เช่นนี้ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ความคิดเริ่มต้นของฉันคือการใช้กฎแห่งความคาดหวังทั้งหมดเพื่อทำให้ความคาดหวังของเงื่อนไข b (st) บน T …

1
ข้อสงสัยเล็กน้อยเกี่ยวกับการประยุกต์ใช้การเรียนรู้การเสริมแรงกับเกมเช่นหมากรุก
ฉันคิดค้นเกมกระดานเหมือนหมากรุก ฉันสร้างเครื่องยนต์เพื่อให้สามารถเล่นได้อย่างอิสระ เครื่องยนต์นั้นเป็นต้นไม้ตัดสินใจ มันประกอบด้วย: ฟังก์ชั่นการค้นหาที่แต่ละโหนดพบความเคลื่อนไหวที่ถูกกฎหมาย ฟังก์ชั่นการประเมินผลที่กำหนดค่าตัวเลขให้กับตำแหน่งกระดาน (บวกหมายถึงผู้เล่นคนแรกได้ไพ่ที่สูงกว่าหมายถึงผู้เล่นที่สองชนะแทน) อัลกอริทึม negamax การตัดตัวอักษร ปัญหาหลักเกี่ยวกับเอ็นจิ้นนี้คือการยกเลิกฟังก์ชั่นการประเมินผลนั้นยุ่งยากมาก ฉันไม่รู้ว่าปัจจัยใดที่ควรพิจารณาและน้ำหนักที่ควรใส่ วิธีเดียวที่ฉันเห็นการปรับปรุงเครื่องยนต์คือการทำซ้ำเกมที่พยายามแต่ละครั้งรวมกันของปัจจัยและน้ำหนัก อย่างไรก็ตามการคำนวณดูเหมือนว่าจะเป็นเพลงที่ยากมาก (ฉันสามารถ backpropagate ได้โดยไม่ต้องใช้ deeplearning หรือเปล่า) ฉันต้องการใช้การเรียนรู้การเสริมแรงเพื่อทำให้เครื่องยนต์ดีขึ้นโดยการเล่นกับตัวเอง ฉันได้อ่านเกี่ยวกับหัวข้อ แต่ฉันยังค่อนข้างสับสน มีรางวัลอื่นอีกบ้างในเกมที่เป็นส่วนหนึ่งของผลลัพธ์แบบชนะหรือแพ้ (1 หรือ 0) ถ้าฉันใช้รางวัลอื่น ๆ เช่นผลลัพธ์จากฟังก์ชั่นการประเมินผลในแต่ละเทิร์นฉันจะใช้มันได้อย่างไร ฉันจะแก้ไขฟังก์ชั่นการประเมินผลเพื่อให้ได้ผลตอบแทนที่ดีขึ้นหลังจากทำซ้ำได้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.