เมื่อใดที่ต้องเลือก SARSA เทียบกับการเรียนรู้ Q


19

SARSA และ Q Learning เป็นทั้งอัลกอริทึมการเรียนรู้เสริมที่ทำงานในลักษณะเดียวกัน ความแตกต่างที่โดดเด่นที่สุดคือ SARSA อยู่ในนโยบายขณะที่ Q Learning ปิดนโยบาย กฎการอัพเดทมีดังนี้:

การเรียนรู้ Q:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

ซาร์ซา:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

โดยที่st,atและrtเป็นสถานะการกระทำและรางวัล ณ ขั้นตอนtและγเป็นปัจจัยลดราคา

พวกเขาส่วนใหญ่มีลักษณะเดียวกันยกเว้นใน SARSA เราดำเนินการจริงและในการเรียนรู้ Q เราดำเนินการด้วยรางวัลสูงสุด

มีการตั้งค่าทางทฤษฎีหรือภาคปฏิบัติที่ควรเลือกอย่างใดอย่างหนึ่งมากกว่าอีกอันหนึ่งหรือไม่? ฉันเห็นได้ว่าการใช้ Q สูงสุดในการเรียนรู้นั้นมีค่าใช้จ่ายสูงและมากขึ้นเรื่อย ๆ ในพื้นที่ปฏิบัติการต่อเนื่อง แต่มีอะไรอีกบ้าง?


ในพื้นที่การดำเนินการอย่างต่อเนื่องวิธีการค้นหานโยบายโดยตรงเช่นวิธีการไล่ระดับนโยบายแบบต่าง ๆ มักใช้กันทั่วไปตั้งแต่ที่คุณเข้าใจวิธีการบำรุงรักษาและประเมินฟังก์ชั่นค่าที่ไม่ต่อเนื่องสำหรับพื้นที่การดำเนินการอย่างต่อเนื่องนั้น (เพราะคำสาปของขนาด )
HelloGoodbye

คำตอบ:


27

พวกเขาส่วนใหญ่มีลักษณะเดียวกันยกเว้นใน SARSA เราดำเนินการจริงและในการเรียนรู้ Q เราดำเนินการด้วยรางวัลสูงสุด

ที่จริงแล้วทั้งคุณ "รับ" การกระทำที่สร้างขึ้นจริงเดียวต่อไป ในการเรียนรู้ Q คุณจะอัปเดตการประเมินจากการประมาณการสูงสุดของการกระทำถัดไปที่เป็นไปได้ไม่ว่าคุณจะทำอะไร ขณะที่อยู่ใน SARSA คุณจะอัปเดตการประเมินตามและดำเนินการเดียวกันat+1

นี่อาจเป็นสิ่งที่คุณหมายถึงโดย "รับ" ในคำถาม แต่ในวรรณคดีการดำเนินการหมายความว่ามันกลายเป็นค่าของเช่นและมีอิทธิพลต่อ , .atrt+1st+1

มีการตั้งค่าทางทฤษฎีหรือภาคปฏิบัติที่ควรเลือกอย่างใดอย่างหนึ่งมากกว่าอีกอันหนึ่งหรือไม่?

Q-learning มีข้อดีและข้อเสียดังต่อไปนี้เมื่อเทียบกับ SARSA:

  • Q-learning เรียนรู้นโยบายที่ดีที่สุดโดยตรงในขณะที่ SARSA เรียนรู้นโยบายที่ใกล้เคียงที่สุดขณะสำรวจ หากคุณต้องการเรียนรู้นโยบายที่ดีที่สุดโดยใช้ SARSA คุณจะต้องตัดสินใจเลือกกลยุทธ์ในการสลายใน -greedy ตัวเลือกการดำเนินการซึ่งอาจกลายเป็นพารามิเตอร์ในการปรับแต่งϵϵ

  • การเรียนรู้ Q- (และการเรียนรู้นอกนโยบายโดยทั่วไป) มีความแปรปรวนต่อตัวอย่างสูงกว่า SARSA และอาจประสบปัญหาจากการบรรจบกัน สิ่งนี้กลายเป็นปัญหาเมื่อฝึกเครือข่ายประสาทผ่าน Q-learning

  • SARSA จะเข้าหาคอนเวอร์เจนซ์เพื่อให้ได้บทลงโทษที่เป็นไปได้จากการสำรวจเชิงสำรวจในขณะที่การเรียนรู้แบบ Q จะไม่สนใจพวกเขา สิ่งนี้ทำให้ SARSA อนุรักษ์นิยมมากขึ้น - หากมีความเสี่ยงที่จะได้รับผลตอบแทนติดลบใกล้กับเส้นทางที่ดีที่สุดการเรียนรู้แบบ Q จะมีแนวโน้มที่จะกระตุ้นให้รางวัลนั้นขณะสำรวจสำรวจในขณะที่ SARSA จะหลีกเลี่ยงเส้นทางที่อันตรายที่สุด เมื่อพารามิเตอร์การสำรวจลดลง ปัญหาของเล่นคลาสสิกที่แสดงให้เห็นถึงผลกระทบนี้จะเรียกว่าเดินหน้าผา

ในทางปฏิบัติจุดสุดท้ายสามารถสร้างความแตกต่างได้มากหากความผิดพลาดมีค่าใช้จ่ายสูงเช่นคุณกำลังฝึกอบรมหุ่นยนต์ที่ไม่ได้จำลอง แต่ในโลกแห่งความเป็นจริง คุณอาจต้องการอัลกอริทึมการเรียนรู้แบบอนุรักษ์นิยมมากกว่าที่จะหลีกเลี่ยงความเสี่ยงสูงหากมีเวลาจริงและเงินเดิมพันหากหุ่นยนต์เกิดความเสียหาย

หากเป้าหมายของคุณคือการฝึกอบรมตัวแทนที่ดีที่สุดในการจำลองหรือในสภาพแวดล้อมที่มีต้นทุนต่ำและรวดเร็วซ้ำแล้วการเรียนรู้แบบ Q เป็นทางเลือกที่ดีเนื่องจากเป็นจุดแรก (การเรียนรู้นโยบายที่ดีที่สุดโดยตรง) หากตัวแทนของคุณเรียนรู้ออนไลน์และคุณสนใจเกี่ยวกับรางวัลที่ได้รับขณะเรียนรู้ SARSA อาจเป็นตัวเลือกที่ดีกว่า


คำถามติดตามผล: stats.stackexchange.com/questions/361485/…
Muppet
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.