วิธีปรับน้ำหนักให้เป็นค่า Q ด้วยการประมาณฟังก์ชั่นเชิงเส้น


12

ในการเรียนรู้การเสริมแรงการประมาณฟังก์ชั่นเชิงเส้นมักใช้เมื่อมีพื้นที่ของรัฐขนาดใหญ่ (เมื่อค้นหาตารางจะไม่สามารถทำได้)

รูปแบบของคุ้มค่ากับฟังก์ชั่นการประมาณเชิงเส้นจะถูกกำหนดโดยQ

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

ที่มีน้ำหนักและฉันเป็นคุณสมบัติWผมผม

คุณสมบัติที่กำหนดไว้ล่วงหน้าโดยผู้ใช้ คำถามของฉันคือน้ำหนักถูกกำหนดอย่างไร

ฉันได้อ่าน / ดาวน์โหลดสไลด์การบรรยายบางอย่างเกี่ยวกับการเรียนรู้ด้วยฟังก์ชั่นการประมาณ ส่วนใหญ่มีสไลด์บนการถดถอยเชิงเส้นที่ตามมา เนื่องจากเป็นเพียงสไลด์จึงมีแนวโน้มที่จะไม่สมบูรณ์ ฉันสงสัยว่าการเชื่อมต่อ / ความสัมพันธ์ระหว่างสองหัวข้อคืออะไรQ-

คำตอบ:


11

การประมาณฟังก์ชั่นนั้นเป็นปัญหาการถดถอย (ในความหมายทั่วไปคือตรงข้ามกับการจำแนกที่คลาสไม่ต่อเนื่อง) คือหนึ่งพยายามเรียนรู้การแมปฟังก์ชันจากอินพุต (ในกรณีของคุณ(s,a) ) กับมูลค่าจริง เอาท์พุทQ(s,a) ) เนื่องจากเราไม่มีตารางเต็มของค่าอินพุต / เอาต์พุตทั้งหมด แต่แทนที่จะเรียนรู้และประมาณค่าQ(s,a)ในเวลาเดียวกันพารามิเตอร์ (ที่นี่: น้ำหนักW ) จึงไม่สามารถคำนวณได้โดยตรงจากข้อมูล วิธีการทั่วไปที่นี่คือการใช้โคตรลาด

นี่คืออัลกอริทึมทั่วไปสำหรับการเรียนรู้Q(s,a)ด้วยการประมาณฟังก์ชั่นค่า

  • init พารามิเตอร์เวกเตอร์W=(W1,W2,....,Wn)สุ่ม (เช่นใน [0,1])
  • สำหรับแต่ละตอน:

    1. sสถานะเริ่มต้นของตอน
    2. aกระทำ ←ที่กำหนดโดยนโยบายπ (แนะนำ:ε -greedy)
    3. ดำเนินการสังเกตรางวัลRและรัฐต่อไปs 'aRs'
    4. WW+α(R+γ* * * *ม.axa'Q(s',a')-Q(s,a))WQ(s,a)
    5. ss'

    ทำซ้ำ 2-5 จนกระทั่งsเป็นเทอร์มินัล

ที่ ...

  • α[0,1]เป็นอัตราการเรียนรู้
  • γ[0,1]เป็นอัตราคิดลด
  • ม.axa'Q(s',a')เป็นการกระทำa'ในสถานะs'เพิ่มQ(s',a)
  • WQ(s,a)คือการไล่ระดับสีของQ(s,a)ในWWในกรณีที่การเชิงเส้นของการไล่ระดับสีเป็นเพียงเวกเตอร์(1(s,a),...,n(s,a))

พารามิเตอร์ / weights-update (ขั้นตอนที่ 4) สามารถอ่านได้ในลักษณะนี้:

  • (R+γ* * * *ม.axa'Q(s',a'))-(Q(s,a))เป็นข้อผิดพลาดระหว่างการทำนายQ(s,a)และ "ค่าจริง" สำหรับQ(s,a)ซึ่งเป็นรางวัลRได้รับตอนนี้บวกกับรางวัลที่คาดหวังพร้อมส่วนลดตามนโยบายโลภหลังจากนั้น γ* * * *ม.axa'Q(s',a')
  • ดังนั้นพารามิเตอร์ / น้ำหนักเวกเตอร์จะเลื่อนลงไปในทิศทางชัน (ที่ได้รับจากการไล่ระดับสีWQ(s,a) ) โดยจำนวนของข้อผิดพลาดที่วัดได้ปรับด้วยαα

ข้อมูลหลัก:

บทที่ 8 ค่าประมาณของการเรียนรู้การเสริมแรงหนังสือ (โดยรวม) : บทนำโดย Sutton และ Barto (ฉบับพิมพ์ครั้งแรก) ขั้นตอนวิธีการทั่วไปได้รับการแก้ไขในขณะที่มันจะทำกันทั่วไปในการคำนวณQ(s,a)แทนV(s) ) ฉันได้ทิ้งร่องรอยการมีสิทธิ์ของอีเพื่อมุ่งเน้นที่การไล่ระดับสีด้วยลาดชันดังนั้นจึงใช้การสำรองข้อมูลแบบขั้นตอนเดียวเท่านั้น

อ้างอิงเพิ่มเติม


2
ลิงก์เสียสำหรับ Barto & Sutton! ตอนนี้ที่นี่ -> incompleteideas.net/book/the-book.html :) และเป็น ebook incompleteideas.net/book/ebookแต่ฉันไม่ทราบว่าจะหาไฟล์ mobi ได้
ที่ไหน

1
การไล่ระดับสีของ Q (s, a) ที่เกี่ยวข้องกับวาเวกเตอร์คอลัมน์ที่แต่ละองค์ประกอบเป็น fi (s, a) ไม่ใช่การรวมกันของ fi ทั้งหมดตามที่คุณพูดหรือไม่ วัตถุประสงค์คือน้ำหนักแต่ละอันจะเปลี่ยนไปตามมูลค่าของคุณลักษณะที่ทวีคูณ
Miguel Saraiva

@MiguelSaraiva ใช่แก้ไขแล้ว ขอบคุณมาก.
steffen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.