เมื่อใดที่วิธีการ Monte Carlo เป็นที่นิยมมากกว่าวิธีที่ต่างกันชั่วคราว?


12

ฉันได้ทำการค้นคว้ามากมายเกี่ยวกับการเสริมแรงการเรียนรู้เมื่อเร็ว ๆ นี้ ฉันติดตามการเรียนรู้การเสริมแรงของ Sutton & Barto : คำแนะนำสำหรับสิ่งส่วนใหญ่

ฉันรู้ว่ากระบวนการตัดสินใจของมาร์คอฟคืออะไรและวิธีการเรียนรู้การเขียนโปรแกรมแบบไดนามิก (DP), มอนติคาร์โลและความแตกต่างของ Temporal (DP) สามารถนำมาใช้แก้ปัญหาได้อย่างไร ปัญหาฉันมีคือว่าผมไม่เห็นเมื่อ Monte Carlo จะเป็นตัวเลือกที่ดีกว่า TD-การเรียนรู้

ความแตกต่างที่สำคัญระหว่างพวกเขาคือการเรียนรู้ด้วยระบบ TD ใช้การบูตสแตรปเพื่อประมาณค่าฟังก์ชั่นการกระทำและ Monte Carlo ใช้ค่าเฉลี่ยเพื่อทำสิ่งนี้ให้สำเร็จ ฉันไม่สามารถคิดถึงสถานการณ์จริง ๆ ได้เมื่อนี่เป็นวิธีที่ดีกว่า

ฉันเดาว่ามันอาจมีบางอย่างเกี่ยวกับประสิทธิภาพ แต่ฉันไม่สามารถหาแหล่งที่สามารถพิสูจน์ได้

ฉันขาดอะไรบางอย่างหรือ TD-learning เป็นตัวเลือกที่ดีกว่าหรือไม่?

คำตอบ:


9

ปัญหาหลักของการเรียนรู้ TD และ DP คือการอัปเดตขั้นตอนของพวกเขานั้นมีอคติกับเงื่อนไขเริ่มต้นของพารามิเตอร์การเรียนรู้ โดยทั่วไปแล้วกระบวนการ bootstrapping จะปรับปรุงฟังก์ชั่นหรือการค้นหา Q (s, a) บนค่าตัวตายตัวแทน Q (s ', a') โดยใช้สิ่งที่ประมาณการปัจจุบันอยู่ในภายหลัง เห็นได้ชัดว่าในช่วงเริ่มต้นของการเรียนรู้การประมาณการเหล่านี้ไม่มีข้อมูลจากผลตอบแทนจริงหรือการเปลี่ยนสถานะ

หากการเรียนรู้ทำงานได้ตามที่คาดหวังความมีอคติจะลดลงด้วยซ้ำหลายครั้ง อย่างไรก็ตามอคติอาจทำให้เกิดปัญหาที่สำคัญโดยเฉพาะอย่างยิ่งสำหรับวิธีการนอกนโยบาย (เช่นการเรียนรู้ Q) และเมื่อใช้ฟังก์ชั่นการประมาณฟังก์ชั่น การรวมกันที่เป็นเช่นนั้นมีแนวโน้มที่จะล้มเหลวที่จะมาบรรจบกันว่ามันจะเรียกว่าพวกสามร้ายแรงในซัตตันและ Barto

วิธีการควบคุม Monte Carlo ไม่ได้รับความลำเอียงนี้เนื่องจากการอัพเดตแต่ละครั้งนั้นทำโดยใช้ตัวอย่างจริงของสิ่งที่ Q (s, a) ควรเป็น อย่างไรก็ตามวิธีการมอนติคาร์โลสามารถประสบจากความแปรปรวนสูงซึ่งหมายความว่าตัวอย่างเพิ่มเติมจะต้องมีการเรียนรู้ในระดับเดียวกันเมื่อเทียบกับ TD

ในทางปฏิบัติการเรียนรู้ TD ดูเหมือนจะเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นหากปัญหาเกี่ยวกับกลุ่มที่สามที่สามารถเอาชนะได้ ผลลัพธ์ล่าสุดโดยใช้ประสบการณ์การเล่นซ้ำและจัดทำสำเนาของตัวประมาณเพื่อให้การแก้ปัญหาที่อยู่เช่นว่าเป็นวิธีที่ผู้เรียน DQN สำหรับเกมอาตาริถูกสร้างขึ้น

นอกจากนี้ยังมีพื้นที่ตรงกลางระหว่าง TD และ Monte Carlo เป็นไปได้ที่จะสร้างวิธีการทั่วไปที่รวมวิถีที่มีความยาวแตกต่างกัน - จาก TD ขั้นตอนเดียวไปจนถึงการดำเนินการตอนใน Monte Carlo เสร็จสมบูรณ์และรวมเข้าด้วยกัน ตัวแปรที่พบบ่อยที่สุดของการเรียนรู้นี้คือการเรียนรู้TD ( ) โดยที่เป็นพารามิเตอร์จาก (การเรียนรู้ TD ขั้นตอนเดียวที่มีประสิทธิภาพ) ถึง (การเรียนรู้ที่มีประสิทธิภาพ Monte Carlo แต่มีคุณสมบัติที่ดีที่สามารถใช้อย่างต่อเนื่อง ปัญหา) โดยทั่วไปค่าระหว่างและจะสร้างเอเจนต์การเรียนรู้ที่มีประสิทธิภาพมากที่สุด - แม้ว่าจะคล้ายกับพารามิเตอร์หลายตัว แต่ค่าที่ดีที่สุดในการใช้ขึ้นอยู่กับปัญหาλλ0101

หากคุณกำลังใช้วิธีการตามมูลค่า (เมื่อเทียบกับวิธีการตามนโยบาย) การเรียนรู้ TD จะใช้โดยทั่วไปในทางปฏิบัติมากขึ้นหรือวิธีการรวม TD / MC เช่น TD (λ) อาจดียิ่งขึ้น

ในแง่ของ "ความได้เปรียบเชิงปฏิบัติ" สำหรับ MC? การเรียนรู้ของ Monte Carlo นั้นเรียบง่ายมีแนวคิดแข็งแกร่งและใช้งานง่าย แต่มักจะช้ากว่า TD โดยทั่วไปฉันจะไม่ใช้มันสำหรับเอ็นจิ้นคอนโทรลเลอร์ควบคุมการเรียนรู้ (เว้นแต่จะรีบนำบางสิ่งไปใช้ในสภาพแวดล้อมที่เรียบง่าย) แต่ฉันจะพิจารณาอย่างจริงจังสำหรับการประเมินนโยบายเพื่อเปรียบเทียบตัวแทนหลาย ๆ ตัวนั่นเป็นเพราะมันเป็น มาตรการที่เป็นกลางซึ่งเป็นสิ่งสำคัญสำหรับการทดสอบ


ก่อนอื่นขอบคุณสำหรับคำตอบ ฉันเห็นว่าในอัลกอรึทึมนั้นสามารถใช้อัลกอริทึมที่เป็นกลางได้อย่างไร แต่เมื่อพิจารณาถึงความแปรปรวนที่สูงของ Monte Carlo สามารถให้ในช่วงเริ่มต้นของการฝึกอบรมฉันไม่เห็นว่าเรื่องนี้สำคัญจริงๆ ทั้ง Monte Carlo และ TD จะเริ่มต้นด้วยการประมาณที่ไม่ถูกต้องและจากสิ่งที่ฉันได้อ่าน TD จะมาบรรจบกันเร็วขึ้นมาก ฉันไม่สามารถหาข้อได้เปรียบที่แท้จริงของการใช้ Monte Carlo ได้ (การหลีกเลี่ยงกลุ่มที่อันตรายถึงตายได้)
Anne-dirk

1
@ Anne-dirk หากคุณใช้วิธีการตามค่านิยม (ตรงข้ามกับนโยบาย) ดังนั้นการเรียนรู้ TD จะถูกนำมาใช้มากขึ้นในทางปฏิบัติหรือวิธีการรวม TD / MC เช่น TD (λ) อาจเป็นไปได้ ดีกว่า ฉันไม่แน่ใจว่าคุณหมายถึงอะไรโดย "ความได้เปรียบในทางปฏิบัติ"? การเรียนรู้ของมอนติคาร์โลนั้นมีแนวคิดเรียบง่ายแข็งแกร่งและใช้งานง่าย โดยทั่วไปฉันจะไม่ใช้มันสำหรับเอ็นจิ้นการควบคุมการเรียนรู้ (เว้นแต่จะรีบนำบางสิ่งไปใช้ในสภาพแวดล้อมที่เรียบง่าย) แต่ฉันจะพิจารณาอย่างจริงจังสำหรับการประเมินนโยบายเพื่อเปรียบเทียบตัวแทนหลายตัวเช่น
Neil Slater

@Neul Slater Aaaah ฉันเห็น ... นั่นเป็นคำตอบที่ฉันกำลังมองหา :) ขอบคุณสำหรับความช่วยเหลือของคุณ!
Anne-dirk

-1

โดยพื้นฐานแล้วมันขึ้นอยู่กับสภาพแวดล้อมของคุณ

TD ใช้ประโยชน์จากคุณสมบัติของมาร์คอฟกล่าวคือสถานะในอนาคตของกระบวนการขึ้นอยู่กับสถานะปัจจุบันเท่านั้นดังนั้นจึงมักจะมีประสิทธิภาพมากกว่าในการใช้ TD ในสภาพแวดล้อมของมาร์คอฟ

MC ไม่ใช้ประโยชน์จากคุณสมบัติของมาร์คอฟเนื่องจากเป็นพื้นฐานของรางวัลในกระบวนการเรียนรู้ทั้งหมด


ฉันไม่คิดว่ามันถูกต้องหรืออย่างน้อยก็เห็นได้ชัด คุณสมบัติมาร์คอฟในบริบทของ RL เกี่ยวข้องกับรัฐ คุณช่วยอธิบายได้ไหมว่าทำไมอัลกอริธึม MC ถึงทำงานได้ดีขึ้นเมื่อคุณสมบัติของมาร์คอฟไม่พอใจ?
nbro

เพื่อความชัดเจนฉันหมายถึงประสิทธิภาพ หากคุณสามารถใช้ประโยชน์จากคุณสมบัติของมาร์คอฟแล้ว TD นั้นมีประโยชน์เพราะคุณสามารถเริ่มต้นในสถานะที่กำหนดการกระทำและผลลัพธ์จะเหมือนเดิมเสมอดังนั้นคุณสามารถคำนวณข้อผิดพลาดของ TD ด้วยความมั่นใจในระดับสูง ด้วย non-MDP หากคุณได้รับสถานะที่สังเกตได้บางส่วนดังนั้น TD อาจไม่มีประสิทธิภาพมากนัก ไม่ได้หมายความว่าคุณไม่สามารถใช้ TD ในแบบที่ไม่ใช่ MDP ได้ แต่อาจไม่มีประสิทธิภาพและอาจประสบความสำเร็จกับ TD แลมบ์ดามากกว่า TD (1)
BigBadMe

"ถ้าคุณสามารถใช้ประโยชน์จากคุณสมบัติของมาร์คอฟแล้ว TD ก็เป็นข้อได้เปรียบเพราะคุณสามารถเริ่มการทำงานในสถานะใดก็ตามการกระทำและผลลัพธ์จะเหมือนเดิมเสมอ" มันจะเหมือนกันถ้าสภาพแวดล้อมเลวร้ายลง สิ่งนี้เกี่ยวข้องกับคุณสมบัติมาร์คอฟหรือไม่ ฉันไม่ได้รับการเรียกร้องของคุณ คุณอ่านที่ไหน TD จะไม่มีประสิทธิภาพมากกว่า MC ในเช่น POMDP
nbro

1
MDP ไม่ได้ถูกกำหนดโดยคำจำกัดความ สภาพแวดล้อมที่กำหนดขึ้นโดยปกติจะถูกกำหนดเป็น: หากตัวแทนอยู่ในสถานะs และดำเนินการ aจากนั้นสถานะถัดไป sเหมือนกันเสมอไม่ว่าขั้นตอนใด มันสุ่มมาเป็นอย่างอื่น MDPs เป็นเพียงวิธีหนึ่งในการแสดงถึงสิ่งแวดล้อมและพลวัตของมัน
nbro

1
"หากคุณเป็นรัฐ S เหตุการณ์ทั้งหมดที่เกิดขึ้นก่อนหน้านี้จะถูกกำหนดโดยรัฐนั้นและหากคุณดำเนินการ a คุณจะได้รับสถานะ S และรางวัล r เสมอ", ไม่สิ่งนี้ไม่เป็นความจริงโดยเฉพาะ ส่วนที่ไม่เป็นความจริงคือ "ถ้าคุณดำเนินการกแล้วคุณจะได้รับสถานะ S และรางวัล r เสมอ" นี่เป็นความจริงเฉพาะถ้า MDP มีการเปลี่ยนแปลงที่กำหนดขึ้นและฟังก์ชั่นการให้รางวัล (แต่นี่อาจไม่ใช่ทุกกรณี)
nbro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.