ปัญหาหลักของการเรียนรู้ TD และ DP คือการอัปเดตขั้นตอนของพวกเขานั้นมีอคติกับเงื่อนไขเริ่มต้นของพารามิเตอร์การเรียนรู้ โดยทั่วไปแล้วกระบวนการ bootstrapping จะปรับปรุงฟังก์ชั่นหรือการค้นหา Q (s, a) บนค่าตัวตายตัวแทน Q (s ', a') โดยใช้สิ่งที่ประมาณการปัจจุบันอยู่ในภายหลัง เห็นได้ชัดว่าในช่วงเริ่มต้นของการเรียนรู้การประมาณการเหล่านี้ไม่มีข้อมูลจากผลตอบแทนจริงหรือการเปลี่ยนสถานะ
หากการเรียนรู้ทำงานได้ตามที่คาดหวังความมีอคติจะลดลงด้วยซ้ำหลายครั้ง อย่างไรก็ตามอคติอาจทำให้เกิดปัญหาที่สำคัญโดยเฉพาะอย่างยิ่งสำหรับวิธีการนอกนโยบาย (เช่นการเรียนรู้ Q) และเมื่อใช้ฟังก์ชั่นการประมาณฟังก์ชั่น การรวมกันที่เป็นเช่นนั้นมีแนวโน้มที่จะล้มเหลวที่จะมาบรรจบกันว่ามันจะเรียกว่าพวกสามร้ายแรงในซัตตันและ Barto
วิธีการควบคุม Monte Carlo ไม่ได้รับความลำเอียงนี้เนื่องจากการอัพเดตแต่ละครั้งนั้นทำโดยใช้ตัวอย่างจริงของสิ่งที่ Q (s, a) ควรเป็น อย่างไรก็ตามวิธีการมอนติคาร์โลสามารถประสบจากความแปรปรวนสูงซึ่งหมายความว่าตัวอย่างเพิ่มเติมจะต้องมีการเรียนรู้ในระดับเดียวกันเมื่อเทียบกับ TD
ในทางปฏิบัติการเรียนรู้ TD ดูเหมือนจะเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นหากปัญหาเกี่ยวกับกลุ่มที่สามที่สามารถเอาชนะได้ ผลลัพธ์ล่าสุดโดยใช้ประสบการณ์การเล่นซ้ำและจัดทำสำเนาของตัวประมาณเพื่อให้การแก้ปัญหาที่อยู่เช่นว่าเป็นวิธีที่ผู้เรียน DQN สำหรับเกมอาตาริถูกสร้างขึ้น
นอกจากนี้ยังมีพื้นที่ตรงกลางระหว่าง TD และ Monte Carlo เป็นไปได้ที่จะสร้างวิธีการทั่วไปที่รวมวิถีที่มีความยาวแตกต่างกัน - จาก TD ขั้นตอนเดียวไปจนถึงการดำเนินการตอนใน Monte Carlo เสร็จสมบูรณ์และรวมเข้าด้วยกัน ตัวแปรที่พบบ่อยที่สุดของการเรียนรู้นี้คือการเรียนรู้TD ( ) โดยที่เป็นพารามิเตอร์จาก (การเรียนรู้ TD ขั้นตอนเดียวที่มีประสิทธิภาพ) ถึง (การเรียนรู้ที่มีประสิทธิภาพ Monte Carlo แต่มีคุณสมบัติที่ดีที่สามารถใช้อย่างต่อเนื่อง ปัญหา) โดยทั่วไปค่าระหว่างและจะสร้างเอเจนต์การเรียนรู้ที่มีประสิทธิภาพมากที่สุด - แม้ว่าจะคล้ายกับพารามิเตอร์หลายตัว แต่ค่าที่ดีที่สุดในการใช้ขึ้นอยู่กับปัญหาλλ0101
หากคุณกำลังใช้วิธีการตามมูลค่า (เมื่อเทียบกับวิธีการตามนโยบาย) การเรียนรู้ TD จะใช้โดยทั่วไปในทางปฏิบัติมากขึ้นหรือวิธีการรวม TD / MC เช่น TD (λ) อาจดียิ่งขึ้น
ในแง่ของ "ความได้เปรียบเชิงปฏิบัติ" สำหรับ MC? การเรียนรู้ของ Monte Carlo นั้นเรียบง่ายมีแนวคิดแข็งแกร่งและใช้งานง่าย แต่มักจะช้ากว่า TD โดยทั่วไปฉันจะไม่ใช้มันสำหรับเอ็นจิ้นคอนโทรลเลอร์ควบคุมการเรียนรู้ (เว้นแต่จะรีบนำบางสิ่งไปใช้ในสภาพแวดล้อมที่เรียบง่าย) แต่ฉันจะพิจารณาอย่างจริงจังสำหรับการประเมินนโยบายเพื่อเปรียบเทียบตัวแทนหลาย ๆ ตัวนั่นเป็นเพราะมันเป็น มาตรการที่เป็นกลางซึ่งเป็นสิ่งสำคัญสำหรับการทดสอบ