เท่าที่ฉันทราบก็ยังคงเป็นปัญหาที่เปิดกว้างเพื่อให้ได้ความเข้าใจที่ชัดเจนและเป็นทางการว่าทำไม / เมื่อเราขาดการบรรจบกัน - หรือแย่กว่านั้นบางครั้งก็เป็นอันตรายจากความแตกต่าง โดยทั่วไปแล้วจะประกอบกับ"มฤตยูสามคน" (ดู 11.3 ของรุ่นที่สองของซัตตันและหนังสือของบาร์โต) การรวมกันของ:
- การประมาณฟังก์ชั่นและ
- Bootstrapping (ใช้การประเมินมูลค่าของเราเองในการคำนวณเป้าหมายการฝึกอบรมของเราตามที่ทำโดย Q-learning) และ
- การฝึกอบรมนอกนโยบาย (Q- การรับรู้เป็นการปิดนโยบาย)
นั่นเป็นเพียงการให้รายละเอียดของคดีที่เราขาดการบรรจบกันและ / หรืออันตรายจากความแตกต่าง แต่ก็ไม่ได้บอกเราว่าทำไมมันถึงเกิดขึ้นในกรณีเหล่านี้
คำตอบของจอห์นได้ให้สัญชาตญาณว่าส่วนของปัญหาคือการใช้ฟังก์ชั่นการประมาณสามารถนำไปสู่สถานการณ์ที่ผู้ประเมินฟังก์ชั่นของคุณไม่ทรงพลังเพียงพอที่จะเป็นตัวแทนของจริงQ∗ ฟังก์ชั่นอาจมีข้อผิดพลาดการประมาณที่เป็นไปไม่ได้ที่จะกำจัดโดยไม่เปลี่ยนไปใช้ตัวประมาณฟังก์ชั่นอื่น
โดยส่วนตัวแล้วฉันคิดว่าสัญชาตญาณนี้ช่วยให้เข้าใจว่าทำไมอัลกอริธึมไม่สามารถรับประกันการบรรจบกันของคำตอบที่ดีที่สุด แต่ฉันยังคาดหวังอย่างสังหรณ์ใจว่าอาจจะสามารถ "บรรจบ" กับโซลูชัน "เสถียร" ที่ดีที่สุด ข้อ จำกัด ที่มีอยู่ในการแสดงฟังก์ชันที่เลือก อันที่จริงนี่คือสิ่งที่เราสังเกตเห็นในทางปฏิบัติเมื่อเราเปลี่ยนไปใช้การฝึกอบรมตามนโยบาย (เช่น Sarsa) อย่างน้อยก็ในกรณีที่มีตัวประมาณฟังก์ชั่นเชิงเส้น
สัญชาตญาณของตัวเองด้วยความเคารพต่อคำถามนี้ได้รับโดยทั่วไปว่าเป็นแหล่งสำคัญของปัญหาคือลักษณะทั่วไป ในการตั้งค่าแบบตารางเรามีรายการแยกต่างหากQ(s,a) เพื่อทุกสิ่ง (s,a)คู่ เมื่อใดก็ตามที่เราอัปเดตการประเมินของเราสำหรับหนึ่งรายการรายการนั้นจะไม่มีการแก้ไขรายการอื่น (อย่างน้อยในตอนแรก - อาจมีผลกระทบบางอย่างกับรายการอื่น ๆ ในการอัปเดตในอนาคตเนื่องจากการบูตในกฎการอัปเดต) อัปเดตกฎสำหรับอัลกอริทึมเช่นQ- การรับรู้และ Sarsa บางครั้งอาจอัปเดตไปสู่ทิศทาง "ผิด" หากเราได้รับ "โชคร้าย" แต่โดยความคาดหมายพวกเขามักจะอัปเดตไปสู่ "ทิศทาง" ที่ถูกต้อง โดยสัญชาตญาณซึ่งหมายความว่าในการตั้งค่าแบบตารางตามความคาดหมายเราจะค่อยๆค่อย ๆ แก้ไขข้อผิดพลาดใด ๆ ในรายการใดรายการหนึ่งโดยไม่แยกรายการอื่น ๆ
ด้วยการประมาณฟังก์ชั่นเมื่อเราอัปเดตของเรา Q(s,a) ประมาณสำหรับหนึ่ง (s,a)ทั้งคู่ก็สามารถที่อาจมีผลกระทบต่อทุกประมาณการอื่น ๆ ของเราสำหรับทุกคู่ที่รัฐดำเนินการอื่น ๆ โดยสังหรณ์ซึ่งหมายความว่าเราไม่ได้แยกรายการที่ดีเช่นเดียวกับในการตั้งค่าตารางและข้อผิดพลาด "แก้ไข" ในรายการหนึ่งอาจมีความเสี่ยงของการเพิ่มข้อผิดพลาดใหม่ไปยังรายการอื่น ๆ อย่างไรก็ตามเช่นเดียวกับคำตอบของจอห์นสัญชาตญาณทั้งหมดนี้จะนำไปใช้กับอัลกอริทึมตามนโยบายเช่นกันดังนั้นจึงยังไม่ได้อธิบายว่ามีอะไรพิเศษเกี่ยวกับQ-learning (และแนวทางนอกนโยบายอื่น ๆ )
กระดาษที่ผ่านมาที่น่าสนใจมากในหัวข้อนี้คือไม่หลง Q-learning และราคาซ้ำ พวกเขาชี้ให้เห็นปัญหาของ "ความลำเอียงที่ผิดเพี้ยน" ในอัลกอริทึมที่รวมการประมาณฟังก์ชั่นเข้ากับกฎการอัพเดทที่เกี่ยวข้องmax ผู้ประกอบการเช่นการเรียนรู้แบบ Q (อาจไม่ซ้ำกับ max ผู้ประกอบการ แต่อาจนำไปใช้กับนโยบายนอกโดยทั่วไป?)
ปัญหามีดังนี้ สมมติว่าเราทำสิ่งนี้Q- รับการอัพเดทสำหรับคู่การกระทำของรัฐ (s,a):
Q(s,a)←Q(s,a)+α[maxa′Q(s′,a′)−Q(s,a)].
ค่าประเมิน maxa′Q(s′,a′) ใช้ที่นี่จะขึ้นอยู่กับข้อสันนิษฐานที่เราดำเนินการตามนโยบายที่เป็นโลภที่เกี่ยวข้องกับเวอร์ชันเก่าของเรา Qค่าประมาณของวิถีกระสุนที่ยาวมาก ดังที่ได้กล่าวไปแล้วในคำตอบก่อนหน้าบางคำประมาณฟังก์ชั่นของเรามีความสามารถในการเป็นตัวแทน จำกัด และการอัปเดตสำหรับคู่การกระทำของรัฐหนึ่งคู่อาจส่งผลต่อการประเมินมูลค่าสำหรับคู่การกระทำของรัฐอื่น ๆ ซึ่งหมายความว่าหลังจากเรียกการอัปเดตของเราเป็นQ(s,a), approximator ฟังก์ชั่นของเราอาจจะไม่สามารถที่จะไปพร้อม ๆ กันแสดงนโยบายที่นำไปสู่ผลตอบแทนที่สูงที่ของเราmaxa′Q(s′,a′)ประมาณการอยู่บนพื้นฐานของ ผู้เขียนบทความนี้บอกว่าอัลกอริทึมคือ "ประสาทหลอน" จะดำเนินการอัปเดตภายใต้สมมติฐานที่ว่าลงมาถึงบรรทัดนั้นก็ยังสามารถได้รับผลตอบแทนจำนวนมาก แต่อาจไม่ได้มีประสิทธิภาพเพียงพอที่จะได้รับผลตอบแทนเหล่านั้นด้วยพารามิเตอร์เวอร์ชั่นของฟังก์ชั่นผู้ประมาณใหม่
ในที่สุดกระดาษอีกฉบับที่ฉันสงสัยว่าเกี่ยวข้องกับคำถามนี้คือการวินิจฉัยคอขวดในอัลกอริทึมการเรียนรู้ Q ลึกแต่น่าเสียดายที่ฉันยังไม่มีเวลาอ่านรายละเอียดที่เพียงพอและสรุปได้อย่างเพียงพอ