การตั้งค่า
เรากำลังพิจารณาในการตั้งค่าของ:
- การกระทำที่ไม่ต่อเนื่อง
- รัฐไม่ต่อเนื่อง
- รางวัลที่ถูกผูกไว้
- นโยบายคงที่
- ขอบฟ้าที่ไม่มีที่สิ้นสุด
นโยบายที่เหมาะสมหมายถึง:
และฟังก์ชั่นค่าที่ดีที่สุดคือ
อาจมีชุดของนโยบายที่ให้ได้สูงสุด แต่มีเพียงฟังก์ชั่นค่าที่ดีที่สุดเพียงหนึ่ง:
V * = สูงสุดπ V π ( s ) , ∀ s ∈ S V * = V π *
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
คำถาม
จะพิสูจน์ได้อย่างไรว่ามีอยู่อย่างน้อยหนึ่งซึ่งสอดคล้องกับ (1) พร้อมกันสำหรับทุก ? s ∈ Sπ∗s∈S
โครงร่างของการพิสูจน์
สร้างสมการที่ดีที่สุดที่จะใช้เป็นคำจำกัดความตัวแทนเสมือนของฟังก์ชั่นค่าที่ดีที่สุดซึ่งเราจะพิสูจน์ในขั้นตอนที่ 2 ว่ามันเทียบเท่ากับคำจำกัดความผ่าน Eq (2)
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
หาค่าความเท่ากันของการกำหนดฟังก์ชั่นค่าที่เหมาะสมผ่าน Eq. (4) และผ่าน Eq. (2)
(หมายเหตุในความเป็นจริงเราต้องการเพียงทิศทางความจำเป็นในการพิสูจน์เพราะความชัดเจนเพียงพอตั้งแต่เราสร้างสมการ (4) จากสมการ (2))
พิสูจน์ว่ามีวิธีแก้ปัญหาเฉพาะสำหรับ Eq (4)
ในขั้นตอนที่ 2 เรารู้ว่าโซลูชันที่ได้รับในขั้นตอนที่ 3 เป็นวิธีแก้ปัญหาสำหรับ Eq (2) ดังนั้นจึงเป็นฟังก์ชั่นค่าที่ดีที่สุด
จากฟังก์ชั่นค่าที่ดีที่สุดเราสามารถกู้คืนนโยบายที่เหมาะสมโดยเลือกการกระทำ maximizer ใน Eq (4) สำหรับแต่ละรัฐ
รายละเอียดของขั้นตอน
1
ตั้งแต่เรามีA) และถ้ามีเช่นนั้นเราสามารถ เลือกนโยบายที่ดีขึ้นโดยการเพิ่มมากกว่าV π ∗ ( V π ∗ ≠ สูงสุดa ∈ A Q π ∗ ( s , a ) Q ∗ ( s , a ) = Q π ∗ ( s , a )V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
ตามขั้นตอนที่ 1
(<=)
คือถ้าพอใจจากนั้นSV~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
กำหนดโอเปอเรเตอร์ Bellman ที่ดีที่สุดเป็น
ดังนั้นเป้าหมายของเราคือการพิสูจน์ว่าถ้าแล้ว . เราแสดงสิ่งนี้โดยรวมผลลัพธ์สองรายการดังต่อไปนี้Puterman [1]:
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
ก) หากแล้วVV~≥TV~V~≥V∗
ข) หากแล้วVV~≤TV~V~≤V∗
พิสูจน์:
ก)
สำหรับ ,
นี่คือกฎการตัดสินใจ (โปรไฟล์การกระทำในเวลาที่กำหนด),คือเวกเตอร์ที่แสดงถึงรางวัลทันที เหนี่ยวนำจากและคือการเปลี่ยนแปลงเมทริกซ์เหนี่ยวนำจากdπ=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
โดยอุปนัยสำหรับ ,
ที่หมายถึง -step เปลี่ยนแปลงเมทริกซ์ภายใต้\n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
ตั้งแต่
เรามี
ดังนั้นเราจึงมีV และเนื่องจากสิ่งนี้มีไว้สำหรับเราจึงสรุปได้ว่า
b)
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
ทำตามขั้นตอนที่ 1
3
ตัวดำเนินการของ Bellman ที่ดีที่สุดคือการหดตัวใน norm, cf. [2]L∞
พิสูจน์: สำหรับ ,
โดยที่ (*) เราใช้ความจริงที่ว่า
sสูงสุดฉ()-สูงสุด 'กรัม(')≤สูงสุด[F()-กรัม()]
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
ดังนั้นโดย Banach fixed point theorum มันจึงตามมาว่ามีจุดคงที่ที่ไม่เหมือนใครT
อ้างอิง
[1] Puterman, Martin L .. “ กระบวนการตัดสินใจของมาร์คอฟ: การเขียนโปรแกรมแบบไดนามิก Stochastic แบบแยก” (2016)
[2] A. Lazaric http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf