เห็นได้ชัดว่าในการเรียนรู้การเสริมแรงวิธี temporal-different (TD) เป็นวิธีการบูตสแตรป ในทางกลับกันวิธีมอนติคาร์โลไม่ใช่วิธีการบูตสแตรป
bootstrapping ใน RL คืออะไร วิธี bootstrapping ใน RL คืออะไร?
เห็นได้ชัดว่าในการเรียนรู้การเสริมแรงวิธี temporal-different (TD) เป็นวิธีการบูตสแตรป ในทางกลับกันวิธีมอนติคาร์โลไม่ใช่วิธีการบูตสแตรป
bootstrapping ใน RL คืออะไร วิธี bootstrapping ใน RL คืออะไร?
คำตอบ:
การอ่านการบูตใน RL นั้นสามารถอ่านได้ว่า "การใช้ค่าโดยประมาณตั้งแต่หนึ่งค่าขึ้นไปในขั้นตอนการอัปเดตสำหรับค่าประมาณชนิดเดียวกัน "
ในกฎการอัพเดท TD ส่วนใหญ่คุณจะเห็นการอัปเดต SARSA (0) นี้:
ค่าเป็นการประมาณค่าจริงของและยังเรียกว่าเป้าหมาย TD มันเป็นวิธีบูตสแตรปเพราะเราอยู่ในส่วนที่ใช้ค่า Q เพื่อปรับปรุงค่า Q อื่น มีจำนวนเล็ก ๆ ของข้อมูลที่สังเกตได้จริงในรูปแบบของการเป็น , รางวัลทันทีสำหรับขั้นตอนและยังอยู่ในช่วงการเปลี่ยนรัฐ '
ตัดกับ Monte Carlo ซึ่งอาจมีกฎการอัพเดทที่เทียบเท่า:
ที่คือรางวัลที่ได้รับส่วนลดทั้งหมดในเวลาสมมติว่าในการอัปเดตนี้เริ่มต้นในสถานะดำเนินการจากนั้นปฏิบัติตามนโยบายปัจจุบันจนกระทั่งจบตอน ในทางเทคนิคแล้วโดยที่เป็นขั้นตอนเวลาสำหรับรางวัลเทอร์มินัลและสถานะ โดยเฉพาะอย่างยิ่งค่าเป้าหมายนี้ไม่ได้ใช้การประมาณการที่มีอยู่ใด ๆ (จากค่า Q อื่น ๆ ) แต่จะใช้ชุดการสังเกต (เช่นรางวัล) จากสภาพแวดล้อมเท่านั้น เป็นเช่นนั้นรับประกันได้ว่าจะเป็นกลางประมาณการของมูลค่าที่แท้จริงของขณะที่มันเป็นเทคนิคตัวอย่างของ )
ข้อเสียเปรียบหลักของการบูตสแตรปคือมันเอนเอียงไปทางค่าเริ่มต้นของ (หรือ ) สิ่งเหล่านี้เป็นสิ่งที่ผิดมากที่สุดและระบบการอัปเดตอาจไม่เสถียรในภาพรวมเนื่องจากมีการอ้างอิงตนเองมากเกินไปและมีข้อมูลจริงไม่เพียงพอซึ่งเป็นปัญหาของการเรียนรู้นอกนโยบาย (เช่นการเรียนรู้แบบ Q) โดยใช้เครือข่ายประสาท
โดยไม่ต้องใช้วิธีการ bootstrapping โดยใช้วิถีที่ยาวกว่ามักจะมีความแปรปรวนสูงแทนซึ่งในทางปฏิบัติหมายความว่าคุณต้องการตัวอย่างมากขึ้นก่อนที่ค่าประมาณจะมารวมกัน ดังนั้นแม้จะมีปัญหากับการบูตสแตรปปิ้ง แต่ถ้ามันสามารถทำงานได้มันอาจเรียนรู้ได้เร็วกว่าและมักเป็นที่นิยมมากกว่าวิธีมอนติคาร์โล
คุณสามารถประนีประนอมระหว่างวิธีการตามตัวอย่างของ Monte Carlo และวิธีการขั้นตอนเดียวของ TD ที่บูตโดยใช้การผสมผสานของผลลัพธ์จากวิถีความยาวต่างกัน สิ่งนี้เรียกว่าการเรียนรู้TD ( )และมีวิธีการที่หลากหลายเช่น SARSA ( ) หรือ Q ( )
โดยทั่วไป bootstrapping ใน RL หมายความว่าคุณอัปเดตค่าตามค่าประมาณและไม่ใช่ค่าที่แน่นอน เช่น
การปรับปรุงนโยบายการประเมินผล Monte Carlo ที่เพิ่มขึ้น:
การอัพเดตนโยบายการประเมินผล TD (0):
ใน TD (0) ที่กลับมาเริ่มต้นจากรัฐเป็นประมาณ (bootstrapped) โดยR T + 1 + γ V ( S T + 1 )ขณะที่อยู่ใน MC เราใช้ที่แน่นอนผลตอบแทนจีที