ทำไมมีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมดเสมอ


15

การเรียนรู้การเสริมแรง: การแนะนำ กำลังดำเนินการพิมพ์ครั้งที่สอง Richard S. Sutton และ Andrew G. Barto (c) 2012, pp. 67-68

การแก้ปัญหาการเรียนรู้การเสริมแรงนั้นหมายถึงการค้นหานโยบายที่ได้รับรางวัลมากมายในระยะยาว สำหรับ MDP ที่ จำกัด เราสามารถกำหนดนโยบายที่เหมาะสมได้อย่างแม่นยำด้วยวิธีต่อไปนี้ ฟังก์ชั่นค่ากำหนดการสั่งซื้อบางส่วนผ่านนโยบาย นโยบายถูกกำหนดให้ดีกว่าหรือเท่ากับนโยบายหากผลตอบแทนที่คาดหวังมากกว่าหรือเท่ากับของสำหรับทุกรัฐ กล่าวอีกนัยหนึ่งถ้าหาก , สำหรับทั้งหมด มีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมด นี่เป็นนโยบายที่ดีที่สุดπ ' π ' π π ' วีπ ( s ) วีπ ' ( s ) s Sπππππvπ(s)vπ(s)sS

ทำไมมีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมดเสมอ


หลักฐานที่มีรายละเอียดมาก (ที่ใช้ทฤษฎีจุดคงที่ของ Banach) ปรากฏในบทที่ 6.2 ของ "กระบวนการตัดสินใจของมาร์คอฟ" โดย Puterman
Toghs

คำตอบ:


3

เพิ่งผ่านส่วนที่ยกมาย่อหน้าเดียวกันบอกให้คุณทราบว่านโยบายนี้คืออะไร: เป็นส่วนที่ดำเนินการอย่างดีที่สุดในทุกรัฐ ใน MDP การกระทำที่เราดำเนินการในรัฐหนึ่งจะไม่ส่งผลกระทบต่อรางวัลสำหรับการดำเนินการกับผู้อื่นดังนั้นเราจึงสามารถเพิ่มนโยบายให้รัฐได้สูงสุด


คำตอบนี้ไม่ผิดอย่างสมบูรณ์หรือไม่ คุณจะบอกได้อย่างไรว่าการปรับสถานะของนโยบายให้เหมาะสมโดยรัฐจะนำไปสู่นโยบายที่เหมาะสมที่สุด ถ้าฉันปรับสถานะผ่านสถานะและใช้ฉันแล้วปรับที่นำไปสู่ฟังก์ชันค่าที่เหมาะสมแต่มีนโยบายอื่นที่นำไปสู่ suboptimallyและฟังก์ชั่นคุ้มค่าที่ดีที่สุดของสูงกว่า1} คุณจะแยกแยะสิ่งนี้ออกจากการวิเคราะห์คร่าวๆได้อย่างไร S T + 1 S T + 1 V T + 1 S T S L S ลิตรV T + 1StSt+1St+1Vt+1StSlSlVt+1
MiloMinderbinder

@MiloMinderbinder หากนโยบายที่ดีที่สุดที่คือการเลือกแล้วค่าของสูงกว่าค่าของS_lS T + 1 S T + 1 S ลิตรStSt+1St+1Sl
Don Reba

ความผิดฉันเอง. แก้ไขคำสะกดผิด: 'คำตอบนี้ไม่ผิดทั้งหมดหรือ คุณจะบอกได้อย่างไรว่าการปรับสถานะของนโยบายให้เหมาะสมโดยรัฐจะนำไปสู่นโยบายที่เหมาะสมที่สุด? ถ้าฉันปรับสถานะรัฐให้ดีที่สุดและพาฉันไปที่แล้วปรับที่จะนำไปสู่ฟังก์ชันค่าที่เหมาะสมของแต่มีอีกอันหนึ่ง นโยบายที่นำไปสู่ ​​suboptimally ถึงและฟังก์ชันค่าของนั้นสูงกว่าแต่ฟังก์ชันค่าของนั้นสูงกว่าภายใต้สิ่งนี้ นโยบายมากกว่าภายใต้นโยบายที่พบโดยการปรับสภาวะให้เหมาะสมโดยรัฐ สิ่งนี้เป็นสิ่งที่คุณควบคุมได้อย่างไร 'S T + 1 S T + 1 V T + 2 S T + 2 S T S L + 1 S T + 1 V L + 1 S T + 2StSt+1St+1Vt+2St+2StSl+1St+1Vl+1St+2
MiloMinderbinder

ฉันคิดว่าคำจำกัดความของจะป้องกันไม่ให้สิ่งนี้เกิดขึ้นตั้งแต่แรกเพราะมันควรคำนึงถึงผลตอบแทนในอนาคตเช่นกัน V
Flying_Banana

คำถามจะเป็น: ทำไมมีอยู่? คุณไม่สามารถอ่านทฤษฎีบทจุดq
Fabian Werner

10

การมีอยู่ของนโยบายที่เหมาะสมไม่ชัดเจน เมื่อต้องการดูสาเหตุโปรดทราบว่าฟังก์ชันค่าให้การเรียงลำดับเพียงบางส่วนผ่านพื้นที่ของนโยบาย หมายความว่า:

ππvπ(s)vπ(s),sS

เนื่องจากนี่เป็นการสั่งซื้อเพียงบางส่วนจึงอาจมีกรณีที่นโยบายสองข้อคือและจึงไม่สามารถเปรียบเทียบกันได้ กล่าวอีกนัยหนึ่งมีส่วนย่อยของพื้นที่รัฐและเช่นนั้น:π 2 S 1 S 2π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

ในกรณีนี้เราไม่สามารถพูดได้ว่านโยบายหนึ่งดีกว่าอีกนโยบายหนึ่ง แต่ถ้าเรากำลังจัดการกับ MDP ที่ จำกัด ด้วยฟังก์ชันที่มีค่าขอบเขตดังนั้นสถานการณ์จะไม่เกิดขึ้น มีฟังก์ชั่นค่าที่ดีที่สุดอย่างหนึ่งอย่างแน่นอน แต่อาจมีนโยบายที่ดีที่สุดหลายนโยบาย

เพื่อพิสูจน์สิ่งนี้คุณต้องเข้าใจทฤษฎีบท Banach Fixed Point สำหรับการวิเคราะห์รายละเอียดโปรดดู


8

การตั้งค่า

เรากำลังพิจารณาในการตั้งค่าของ:

  • การกระทำที่ไม่ต่อเนื่อง
  • รัฐไม่ต่อเนื่อง
  • รางวัลที่ถูกผูกไว้
  • นโยบายคงที่
  • ขอบฟ้าที่ไม่มีที่สิ้นสุด

นโยบายที่เหมาะสมหมายถึง: และฟังก์ชั่นค่าที่ดีที่สุดคือ อาจมีชุดของนโยบายที่ให้ได้สูงสุด แต่มีเพียงฟังก์ชั่นค่าที่ดีที่สุดเพียงหนึ่ง: V * = สูงสุดπ V π ( s ) , s S V * = V π *

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

คำถาม

จะพิสูจน์ได้อย่างไรว่ามีอยู่อย่างน้อยหนึ่งซึ่งสอดคล้องกับ (1) พร้อมกันสำหรับทุก ? s SπsS

โครงร่างของการพิสูจน์

  1. สร้างสมการที่ดีที่สุดที่จะใช้เป็นคำจำกัดความตัวแทนเสมือนของฟังก์ชั่นค่าที่ดีที่สุดซึ่งเราจะพิสูจน์ในขั้นตอนที่ 2 ว่ามันเทียบเท่ากับคำจำกัดความผ่าน Eq (2)

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. หาค่าความเท่ากันของการกำหนดฟังก์ชั่นค่าที่เหมาะสมผ่าน Eq. (4) และผ่าน Eq. (2)

    (หมายเหตุในความเป็นจริงเราต้องการเพียงทิศทางความจำเป็นในการพิสูจน์เพราะความชัดเจนเพียงพอตั้งแต่เราสร้างสมการ (4) จากสมการ (2))

  3. พิสูจน์ว่ามีวิธีแก้ปัญหาเฉพาะสำหรับ Eq (4)

  4. ในขั้นตอนที่ 2 เรารู้ว่าโซลูชันที่ได้รับในขั้นตอนที่ 3 เป็นวิธีแก้ปัญหาสำหรับ Eq (2) ดังนั้นจึงเป็นฟังก์ชั่นค่าที่ดีที่สุด

  5. จากฟังก์ชั่นค่าที่ดีที่สุดเราสามารถกู้คืนนโยบายที่เหมาะสมโดยเลือกการกระทำ maximizer ใน Eq (4) สำหรับแต่ละรัฐ

รายละเอียดของขั้นตอน

1

ตั้งแต่เรามีA) และถ้ามีเช่นนั้นเราสามารถ เลือกนโยบายที่ดีขึ้นโดยการเพิ่มมากกว่าV π ( V π สูงสุดa A Q π ( s , a ) Q ( s , a ) = Q π ( s , a )V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

ตามขั้นตอนที่ 1

(<=)

คือถ้าพอใจจากนั้นSV~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

กำหนดโอเปอเรเตอร์ Bellman ที่ดีที่สุดเป็น ดังนั้นเป้าหมายของเราคือการพิสูจน์ว่าถ้าแล้ว . เราแสดงสิ่งนี้โดยรวมผลลัพธ์สองรายการดังต่อไปนี้Puterman [1]:

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

ก) หากแล้วVV~TV~V~V

ข) หากแล้วVV~TV~V~V

พิสูจน์:

ก)

สำหรับ , นี่คือกฎการตัดสินใจ (โปรไฟล์การกระทำในเวลาที่กำหนด),คือเวกเตอร์ที่แสดงถึงรางวัลทันที เหนี่ยวนำจากและคือการเปลี่ยนแปลงเมทริกซ์เหนี่ยวนำจากdπ=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

โดยอุปนัยสำหรับ , ที่หมายถึง -step เปลี่ยนแปลงเมทริกซ์ภายใต้\n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

ตั้งแต่ เรามี ดังนั้นเราจึงมีV และเนื่องจากสิ่งนี้มีไว้สำหรับเราจึงสรุปได้ว่า b)

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

ทำตามขั้นตอนที่ 1

3

ตัวดำเนินการของ Bellman ที่ดีที่สุดคือการหดตัวใน norm, cf. [2]L

พิสูจน์: สำหรับ , โดยที่ (*) เราใช้ความจริงที่ว่า sสูงสุด()-สูงสุด 'กรัม(')สูงสุด[F()-กรัม()]

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

ดังนั้นโดย Banach fixed point theorum มันจึงตามมาว่ามีจุดคงที่ที่ไม่เหมือนใครT

อ้างอิง

[1] Puterman, Martin L .. “ กระบวนการตัดสินใจของมาร์คอฟ: การเขียนโปรแกรมแบบไดนามิก Stochastic แบบแยก” (2016)

[2] A. Lazaric http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.