เหตุใดการเรียนรู้แบบ Q ถึงไม่รวมกันเมื่อใช้การประมาณฟังก์ชั่น


12

อัลกอริทึม Q-learning แบบมีตารางรับประกันว่าจะหาสิ่งที่ดีที่สุด Q ฟังก์ชั่น Qให้เงื่อนไขต่อไปนี้ (เงื่อนไขRobbins-Monro ) เกี่ยวกับอัตราการเรียนรู้เป็นที่พอใจ

  1. tαt(s,a)=
  2. tαt2(s,a)<

ที่ไหน αt(s,a) หมายถึงอัตราการเรียนรู้ที่ใช้เมื่ออัปเดต Q ค่าที่เกี่ยวข้องกับรัฐ s และการกระทำ a ในเวลาขั้นตอน tที่ไหน 0αt(s,a)<1 จะถือว่าเป็นจริงสำหรับทุกรัฐ s และการกระทำ a.

เห็นได้ชัดว่า 0αt(s,a)<1เพื่อให้ทั้งสองเงื่อนไขเป็นจริงคู่การกระทำของรัฐทุกคนจะต้องเข้าชมอย่างไม่สิ้นสุดบ่อยครั้ง: นี่คือที่ระบุไว้ในหนังสือเสริมการเรียนรู้: การแนะนำนอกเหนือจากข้อเท็จจริงที่ว่านี้ควรเป็นที่รู้จักอย่างกว้างขวางและเป็นเหตุผล เบื้องหลังการใช้งานของϵ- นโยบายความปลอดภัย (หรือนโยบายที่คล้ายกัน) ระหว่างการฝึกอบรม

หลักฐานที่สมบูรณ์ที่แสดงให้เห็นว่า Qหารายได้ที่ดีที่สุด Qฟังก์ชั่นสามารถพบได้ในกระดาษบรรจบของ Q-learning: พิสูจน์ง่าย (โดย Francisco S. Melo) เขาใช้แนวคิดเช่นการทำแผนที่การหดตัวเพื่อกำหนดที่ดีที่สุดQฟังก์ชั่น (ดูเพิ่มเติมผู้ประกอบการ Bellman ในการเรียนรู้การเสริมกำลังคืออะไร ) ซึ่งเป็นจุดคงที่ของผู้ประกอบการหดตัวนี้ เขายังใช้ทฤษฎีบท (n. 2) เกี่ยวกับกระบวนการสุ่มที่มาบรรจบกัน0ให้สมมติฐานสองสามข้อ (หลักฐานอาจไม่ใช่เรื่องง่ายที่จะติดตามหากคุณไม่ใช่นักคณิตศาสตร์)

หากใช้โครงข่ายประสาทเทียมเพื่อเป็นตัวแทนของ Q ฟังก์ชั่นทำรับประกันการบรรจบกันของ Q- รายได้ยังคงถือ? ทำไมการเรียนรู้แบบ Q-Converge เมื่อใช้การประมาณฟังก์ชั่น มีหลักฐานอย่างเป็นทางการของการไม่คอนเวอร์เจนซ์ของQ- การใช้การประมาณฟังก์ชั่น?

ฉันกำลังมองหาคำตอบประเภทต่าง ๆ จากผู้ที่ให้สัญชาตญาณเบื้องหลังการไม่บรรจบกัน Q- รายได้เมื่อใช้การประมาณฟังก์ชั่นกับผู้ที่ให้การพิสูจน์อย่างเป็นทางการ (หรือลิงค์ไปยังกระดาษที่มีการพิสูจน์อย่างเป็นทางการ)


2
เป็นคำถามที่ดีมาก!
John Doucette

หนังสือที่คุณอ้างถึงพูดถึงปัญหานี้ในบทที่ 11 เพื่อที่คุณจะได้อ่าน นอกจากนี้ฉันไม่คิดว่าจะมีการพิสูจน์อย่างเป็นทางการว่าทำไมสิ่งนี้เกิดขึ้น แต่มีบางตัวอย่างที่แสดงความแตกต่างแม้ในสภาพแวดล้อมที่เรียบง่าย (เช่น Tsitsiklis และ van Roy)
Brale

คำตอบ:


8

นี่คือคำตอบคำอธิบายที่เข้าใจง่าย:

การประมาณฟังก์ชั่นสามารถทำได้กับฟังก์ชั่นใด ๆ ที่พารามิเตอร์ พิจารณาปัญหาของQ(s,a) พื้นที่ที่ s เป็นจริง reals a คือ 0 หรือ 1และ Q-function ที่แท้จริงคือ Q(s,0)=s2และ Q(s,1)=2s2สำหรับทุกรัฐ ถ้าฟังก์ชั่นของคุณประมาณQ(s,a)=ms+na+bไม่มีพารามิเตอร์ที่สามารถแสดงถึงความจริงได้อย่างถูกต้อง Qฟังก์ชั่น (เราพยายามที่จะใส่เส้นตรงกับฟังก์ชันกำลังสอง) ดังนั้นแม้ว่าคุณจะเลือกอัตราการเรียนรู้ที่ดีและเยี่ยมชมทุกรัฐอย่างไม่ จำกัด บ่อยครั้งฟังก์ชั่นการประมาณของคุณจะไม่มาบรรจบกับความจริงQ ฟังก์ชัน

และนี่คือรายละเอียดเพิ่มเติมเล็กน้อย:

  1. ฟังก์ชั่นโดยประมาณของโครงข่ายประสาทเทียม สามารถประมาณฟังก์ชั่นให้มากขึ้นหรือน้อยลงโดยการใช้พหุนามที่ซับซ้อนมากขึ้นหรือน้อยลงเพื่อประมาณค่า หากคุณคุ้นเคยกับการประมาณซีรี่ส์เทย์เลอร์ความคิดนี้ควรจะดูเป็นธรรมชาติ ถ้าไม่คิดเกี่ยวกับฟังก์ชั่นเช่นคลื่นไซน์ในช่วงเวลา [0-π/2) คุณสามารถประมาณมัน (ไม่ดี) ด้วยเส้นตรง คุณสามารถประมาณมันให้ดีขึ้นด้วยเส้นโค้งกำลังสอง ด้วยการเพิ่มระดับของพหุนามที่เราใช้ประมาณเส้นโค้งเราสามารถหาบางสิ่งที่เหมาะกับเส้นโค้งมากขึ้นเรื่อย ๆ
  2. โครงข่ายประสาทเทียมมีapproximators ฟังก์ชั่นสากล ซึ่งหมายความว่าหากคุณมีฟังก์ชั่นคุณสามารถสร้างเครือข่ายประสาทที่ลึกหรือกว้างพอที่จะสามารถประมาณฟังก์ชั่นที่คุณสร้างขึ้นมาเพื่อการศึกษาระดับปริญญาที่แม่นยำโดยพลการ อย่างไรก็ตามโทโพโลยีเครือข่ายเฉพาะที่คุณเลือกจะไม่สามารถเรียนรู้ฟังก์ชั่นทั้งหมดได้เว้นแต่จะมีขนาดกว้างหรือลึกไม่ จำกัด นี่คล้ายกับวิธีถ้าคุณเลือกพารามิเตอร์ที่ถูกต้องเส้นหนึ่งเส้นสามารถพอดีกับจุดสองจุดใด ๆ แต่ไม่ใช่จุด 3 จุดใด ๆ หากคุณเลือกเครือข่ายที่มีความกว้างหรือความลึก จำกัด ฉันสามารถสร้างฟังก์ชั่นที่ต้องการเซลล์ประสาทเพิ่มขึ้นเล็กน้อยเพื่อให้เหมาะสม

  3. ขอบเขต Q-การเรียนรู้ของถือเฉพาะเมื่อตัวแทนของ Q-ฟังก์ชั่นนี้เป็นที่แน่นอน เพื่อดูว่าทำไมสมมติว่าคุณเลือกที่จะประมาณฟังก์ชั่น Q ของคุณด้วยการแก้ไขเชิงเส้น หากฟังก์ชั่นที่แท้จริงสามารถสร้างรูปร่างใด ๆ ได้อย่างชัดเจนข้อผิดพลาดในการแก้ไขของเราสามารถทำให้มีขนาดใหญ่ได้อย่างง่ายดายเพียงแค่สร้างฟังก์ชั่น Q-like-XOR และไม่มีเวลาพิเศษหรือข้อมูลที่จะช่วยให้เราลดข้อผิดพลาดนี้ . หากคุณใช้ฟังก์ชั่นตัวประมาณฟังก์ชั่นและฟังก์ชั่นจริงที่คุณลองใช้นั้นไม่เหมาะสมสิ่งที่ฟังก์ชั่นสามารถประมาณโดยพลการได้ดีจากนั้นโมเดลของคุณจะไม่มาบรรจบกันอย่างเหมาะสมแม้จะมีอัตราการเรียนรู้ที่ดีและอัตราการสำรวจ การใช้คำศัพท์ของทฤษฎีการเรียนรู้การคำนวณเราอาจพูดได้ว่าหลักฐานการบรรจบกันของ Q-learning ได้สันนิษฐานไว้โดยปริยายว่าฟังก์ชัน Q ที่แท้จริงนั้นเป็นสมาชิกของพื้นที่สมมติฐานที่คุณจะเลือกแบบจำลองของคุณ


เราจะเห็นได้จากหลักฐานที่ฉันพูดถึงว่า "ขอบเขตของ Q-learning มีไว้เฉพาะเมื่อการเป็นตัวแทนของฟังก์ชั่น Q นั้นแน่นอน" นั้นเป็นจริง
nbro

ดังนั้นเราสามารถประมาณฟังก์ชั่นใด ๆ ที่เหมาะสมโดยใช้เครือข่ายประสาทบางส่วน (สถาปัตยกรรม) แต่ได้รับสถาปัตยกรรมเครือข่ายประสาทคงที่ Z (ซึ่งเราต้องเลือกในช่วงเริ่มต้นของขั้นตอนการฝึกอบรมของ Q-learning) Q- การเรียนรู้อาจไม่มาบรรจบกันโดยใช้สถาปัตยกรรมเฉพาะนั้น Z, เพราะ Z อาจไม่แสดงออกเพียงพอที่จะเป็นตัวแทน Q.
nbro

@nbro หลักฐานไม่ได้บอกอย่างชัดเจน แต่ถือว่าเป็นตัวแทนที่แน่นอนของฟังก์ชัน Q (นั่นคือค่าที่แน่นอนนั้นจะถูกคำนวณและเก็บไว้สำหรับทุกคู่ของรัฐ / การกระทำ) สำหรับช่องว่างสถานะไม่สิ้นสุดเป็นที่ชัดเจนว่าการแสดงที่แน่นอนนี้สามารถมีขนาดใหญ่อย่างไม่ จำกัด ในกรณีที่เลวร้ายที่สุด (ตัวอย่างง่าย ๆ : ให้ Q (s, a) = sth หลักของ pi) ความคิดเห็นที่สองของคุณรวมกันเป็นอย่างดี หากสมมติฐานที่แท้จริง Q * ไม่ใช่องค์ประกอบของพื้นที่สมมติฐาน H ที่คุณกำลังเลือกโมเดลคุณจะไม่สามารถรวมเป็น Q * แม้จะมีเวลาหรือข้อมูลที่ไม่สิ้นสุด
John Doucette

4

เท่าที่ฉันทราบก็ยังคงเป็นปัญหาที่เปิดกว้างเพื่อให้ได้ความเข้าใจที่ชัดเจนและเป็นทางการว่าทำไม / เมื่อเราขาดการบรรจบกัน - หรือแย่กว่านั้นบางครั้งก็เป็นอันตรายจากความแตกต่าง โดยทั่วไปแล้วจะประกอบกับ"มฤตยูสามคน" (ดู 11.3 ของรุ่นที่สองของซัตตันและหนังสือของบาร์โต) การรวมกันของ:

  1. การประมาณฟังก์ชั่นและ
  2. Bootstrapping (ใช้การประเมินมูลค่าของเราเองในการคำนวณเป้าหมายการฝึกอบรมของเราตามที่ทำโดย Q-learning) และ
  3. การฝึกอบรมนอกนโยบาย (Q- การรับรู้เป็นการปิดนโยบาย)

นั่นเป็นเพียงการให้รายละเอียดของคดีที่เราขาดการบรรจบกันและ / หรืออันตรายจากความแตกต่าง แต่ก็ไม่ได้บอกเราว่าทำไมมันถึงเกิดขึ้นในกรณีเหล่านี้


คำตอบของจอห์นได้ให้สัญชาตญาณว่าส่วนของปัญหาคือการใช้ฟังก์ชั่นการประมาณสามารถนำไปสู่สถานการณ์ที่ผู้ประเมินฟังก์ชั่นของคุณไม่ทรงพลังเพียงพอที่จะเป็นตัวแทนของจริงQ ฟังก์ชั่นอาจมีข้อผิดพลาดการประมาณที่เป็นไปไม่ได้ที่จะกำจัดโดยไม่เปลี่ยนไปใช้ตัวประมาณฟังก์ชั่นอื่น

โดยส่วนตัวแล้วฉันคิดว่าสัญชาตญาณนี้ช่วยให้เข้าใจว่าทำไมอัลกอริธึมไม่สามารถรับประกันการบรรจบกันของคำตอบที่ดีที่สุด แต่ฉันยังคาดหวังอย่างสังหรณ์ใจว่าอาจจะสามารถ "บรรจบ" กับโซลูชัน "เสถียร" ที่ดีที่สุด ข้อ จำกัด ที่มีอยู่ในการแสดงฟังก์ชันที่เลือก อันที่จริงนี่คือสิ่งที่เราสังเกตเห็นในทางปฏิบัติเมื่อเราเปลี่ยนไปใช้การฝึกอบรมตามนโยบาย (เช่น Sarsa) อย่างน้อยก็ในกรณีที่มีตัวประมาณฟังก์ชั่นเชิงเส้น


สัญชาตญาณของตัวเองด้วยความเคารพต่อคำถามนี้ได้รับโดยทั่วไปว่าเป็นแหล่งสำคัญของปัญหาคือลักษณะทั่วไป ในการตั้งค่าแบบตารางเรามีรายการแยกต่างหากQ(s,a) เพื่อทุกสิ่ง (s,a)คู่ เมื่อใดก็ตามที่เราอัปเดตการประเมินของเราสำหรับหนึ่งรายการรายการนั้นจะไม่มีการแก้ไขรายการอื่น (อย่างน้อยในตอนแรก - อาจมีผลกระทบบางอย่างกับรายการอื่น ๆ ในการอัปเดตในอนาคตเนื่องจากการบูตในกฎการอัปเดต) อัปเดตกฎสำหรับอัลกอริทึมเช่นQ- การรับรู้และ Sarsa บางครั้งอาจอัปเดตไปสู่ทิศทาง "ผิด" หากเราได้รับ "โชคร้าย" แต่โดยความคาดหมายพวกเขามักจะอัปเดตไปสู่ ​​"ทิศทาง" ที่ถูกต้อง โดยสัญชาตญาณซึ่งหมายความว่าในการตั้งค่าแบบตารางตามความคาดหมายเราจะค่อยๆค่อย ๆ แก้ไขข้อผิดพลาดใด ๆ ในรายการใดรายการหนึ่งโดยไม่แยกรายการอื่น ๆ

ด้วยการประมาณฟังก์ชั่นเมื่อเราอัปเดตของเรา Q(s,a) ประมาณสำหรับหนึ่ง (s,a)ทั้งคู่ก็สามารถที่อาจมีผลกระทบต่อทุกประมาณการอื่น ๆ ของเราสำหรับทุกคู่ที่รัฐดำเนินการอื่น ๆ โดยสังหรณ์ซึ่งหมายความว่าเราไม่ได้แยกรายการที่ดีเช่นเดียวกับในการตั้งค่าตารางและข้อผิดพลาด "แก้ไข" ในรายการหนึ่งอาจมีความเสี่ยงของการเพิ่มข้อผิดพลาดใหม่ไปยังรายการอื่น ๆ อย่างไรก็ตามเช่นเดียวกับคำตอบของจอห์นสัญชาตญาณทั้งหมดนี้จะนำไปใช้กับอัลกอริทึมตามนโยบายเช่นกันดังนั้นจึงยังไม่ได้อธิบายว่ามีอะไรพิเศษเกี่ยวกับQ-learning (และแนวทางนอกนโยบายอื่น ๆ )


กระดาษที่ผ่านมาที่น่าสนใจมากในหัวข้อนี้คือไม่หลง Q-learning และราคาซ้ำ พวกเขาชี้ให้เห็นปัญหาของ "ความลำเอียงที่ผิดเพี้ยน" ในอัลกอริทึมที่รวมการประมาณฟังก์ชั่นเข้ากับกฎการอัพเดทที่เกี่ยวข้องmax ผู้ประกอบการเช่นการเรียนรู้แบบ Q (อาจไม่ซ้ำกับ max ผู้ประกอบการ แต่อาจนำไปใช้กับนโยบายนอกโดยทั่วไป?)

ปัญหามีดังนี้ สมมติว่าเราทำสิ่งนี้Q- รับการอัพเดทสำหรับคู่การกระทำของรัฐ (s,a):

Q(s,a)Q(s,a)+α[maxaQ(s,a)Q(s,a)].

ค่าประเมิน maxaQ(s,a) ใช้ที่นี่จะขึ้นอยู่กับข้อสันนิษฐานที่เราดำเนินการตามนโยบายที่เป็นโลภที่เกี่ยวข้องกับเวอร์ชันเก่าของเรา Qค่าประมาณของวิถีกระสุนที่ยาวมาก ดังที่ได้กล่าวไปแล้วในคำตอบก่อนหน้าบางคำประมาณฟังก์ชั่นของเรามีความสามารถในการเป็นตัวแทน จำกัด และการอัปเดตสำหรับคู่การกระทำของรัฐหนึ่งคู่อาจส่งผลต่อการประเมินมูลค่าสำหรับคู่การกระทำของรัฐอื่น ๆ ซึ่งหมายความว่าหลังจากเรียกการอัปเดตของเราเป็นQ(s,a), approximator ฟังก์ชั่นของเราอาจจะไม่สามารถที่จะไปพร้อม ๆ กันแสดงนโยบายที่นำไปสู่ผลตอบแทนที่สูงที่ของเราmaxaQ(s,a)ประมาณการอยู่บนพื้นฐานของ ผู้เขียนบทความนี้บอกว่าอัลกอริทึมคือ "ประสาทหลอน" จะดำเนินการอัปเดตภายใต้สมมติฐานที่ว่าลงมาถึงบรรทัดนั้นก็ยังสามารถได้รับผลตอบแทนจำนวนมาก แต่อาจไม่ได้มีประสิทธิภาพเพียงพอที่จะได้รับผลตอบแทนเหล่านั้นด้วยพารามิเตอร์เวอร์ชั่นของฟังก์ชั่นผู้ประมาณใหม่


ในที่สุดกระดาษอีกฉบับที่ฉันสงสัยว่าเกี่ยวข้องกับคำถามนี้คือการวินิจฉัยคอขวดในอัลกอริทึมการเรียนรู้ Q ลึกแต่น่าเสียดายที่ฉันยังไม่มีเวลาอ่านรายละเอียดที่เพียงพอและสรุปได้อย่างเพียงพอ


1
แต่การใช้เครือข่ายประสาทไม่ได้เกิดจากการสันนิษฐานว่าบางรัฐมีความคล้ายคลึงกันมากหรือไม่? รัฐที่คล้ายกันมาก (เช่นเฟรมต่อเนื่องในเกม) มักจะมีการกระทำที่ดีที่สุดที่คล้ายกันมาก (หรือเหมือนกัน) ดังนั้นฉันไม่แน่ใจว่าคำอธิบายในบทความแรกนั้นใช้ได้ (ฉันควรอ่านเพื่อทำความเข้าใจประเด็นหลักของพวกเขาอย่างเต็มที่)
nbro

1
@nbro Yeah มักจะเป็นลักษณะทั่วไปถือว่าเป็นข้อได้เปรียบมากกว่าปัญหาได้อย่างแม่นยำเพราะเหตุผลนั้น ถ้ามันทำงานออกมาว่า "ตั้งใจ" มันจะมีพลังมากและเร็วขึ้นในการเรียนรู้เพราะเราถ่ายโอนสิ่งที่เราเรียนรู้ไปสู่สถานะที่คล้ายคลึงกัน / การกระทำที่คล้ายคลึงกันมากกว่าการเรียนรู้สำหรับทุก ๆ แต่มันสามารถนำไปสู่ปัญหาโดยเฉพาะอย่างยิ่งในทางทฤษฎี แต่ในทางปฏิบัติ มันเหมือน "ดาบสองคม" ฉันว่า
Dennis Soemers

1
@DennisSoemers คำตอบที่น่าสนใจสุด ๆ จุดการเรียนรู้แบบ non-delusional Q ทำให้รู้สึกเป็นตัน การค้นหาฟังก์ชัน Q ที่ถูกต้องหมายถึงการหาจุดคงที่สำหรับกฎการอัปเดตของคุณ แต่ดูเหมือนว่าการประมาณฟังก์ชั่นอาจนำไปสู่การอัพเดตแบบวนซ้ำใน Q-learning หากคุณคิดแบบนี้
John Doucette
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.