พิจารณาสมการเชิงอนุพันธ์ดังต่อไปนี้
โดยที่ คือสถานะและเป็นตัวแปรควบคุม โซลูชันได้รับจาก
โดยที่เป็นสถานะ inital ที่กำหนดxUx(T)=x0+∫ T 0 F(x(s),U(s))ds x0:=x(0)
x˙(t)=f(x(t),u(t))
xux(t)=x0+∫t0f(x(s),u(s))ds.
x0:=x(0)
ตอนนี้ให้พิจารณาโปรแกรมต่อไปนี้
s.t. V(x0):=maxu∫∞0e−ρtF(x(t),u(t))dtx˙(t)=f(x(t),u(t))x(0)=x0
โดยที่
ρ>0หมายถึงการตั้งค่าเวลา
V(⋅)คือค่าและ
F(⋅)ฟังก์ชั่นวัตถุประสงค์ แอปพลิเคชันทางเศรษฐกิจแบบคลาสสิกคือโมเดล Ramsey-Cass-Koopmans ของการเติบโตที่เหมาะสม สมการแฮมิลตัน - จาโคบี - เบลล์แมนกำหนดโดย
ρV(x)=maxu[F(x,u)+V′(x)f(x,u)],∀t∈[0,∞).
ว่าฉันได้แก้ไข HJB สำหรับVแล้ว จากนั้นให้การควบคุมที่ดีที่สุดโดย
u∗=argmaxu[F(x,u)+V′(x)f(x,u)].
ฉันจะได้รับลูกทีมที่ดีที่สุดสำหรับรัฐและควบคุม
{(x∗(t),u∗(t)):t∈[0,∞)}\}
วิกิพีเดียบทความกล่าวว่า
... แต่เมื่อแก้ไขไปทั่วทั้งพื้นที่ของรัฐสมการ HJB เป็นเงื่อนไขที่จำเป็นและเพียงพอสำหรับการที่เหมาะสม
ใน Bertsekas (2005) การเขียนโปรแกรมแบบไดนามิกและการควบคุมที่เหมาะสมที่สุด Vol 1, 3rd ed. ในข้อเสนอ 3.2.1 เขาระบุว่าการแก้ปัญหาVเป็นฟังก์ชันต้นทุนที่เหมาะสมที่สุดและu ^ * ที่เกี่ยวข้องu∗นั้นเหมาะสมที่สุด อย่างไรก็ตามเขาประกาศอย่างชัดเจนว่าเป็นทฤษฎีบทความพอเพียง
ที่จริงแล้วฉันแค่ต้องการให้แน่ใจว่าถ้าฉันได้แก้ไข HJB และกู้คืนสถานะที่เกี่ยวข้องและเส้นทางการควบคุมที่ฉันไม่ต้องกังวลกับเงื่อนไขการเพิ่มประสิทธิภาพใด ๆ เพิ่มเติม
วิธีการแก้
ฉันพยายาม
ฉันคิดว่าฉันสามารถได้รับเงื่อนไขที่จำเป็นจากหลักการสูงสุดโดยสมการ HJB เอง
กำหนด hamiltonian start
H(x,u,V′(x)):=F(x,u)+V′(x)f(x,u)
จากนั้นเรามี
ρV(x)=maxuH(x,u,V′(x))
ซึ่งคือ
ρV(x)=H(x,u∗,V′(x)).
กำหนดโดยพลฟังก์ชั่นกับ 0 ตอนนี้แก้ไข
q:[0,∞)→Rq(0)=limt→∞q(t)=0
x=x∗+εq
โดยที่เป็นพารามิเตอร์ เสียบคำศัพท์ลงใน hamiltonian ที่ขยายใหญ่สุดซึ่งให้
ε∈R
ρV(x∗+εq)=H(x∗+εq,u∗,V′(x∗+εq)).
ที่เรามีทางออกที่ดีที่สุด ดังนั้นจึงแตกต่างจากเพื่อรับเงื่อนไขการสั่งซื้อครั้งแรก
ε=0ε
ρV′q=Hxq+HV′V′′q.
ตอนนี้กำหนดตัวแปร adjoint ด้วย
λ=V′(x).
แยกความแตกต่างเมื่อเวลาผ่านไป
λ˙=V′′x˙.
และโปรดทราบว่า
HV′=f(x,u)=x˙.
เสียบทุกอย่างเข้ากับ foc ซึ่งจะให้
ρλ=Hx+λ˙.
นั่นมันสวยมาก ดังนั้นการแก้ไข HJB จึงเป็นสิ่งจำเป็นและเพียงพอ บางคนควรเพิ่มไว้ในวิกิ อาจช่วยประหยัดเวลาสำหรับผู้ที่คิดเกี่ยวกับปัญหาดังกล่าว (ฉันจะนับไม่ได้มาก)
อย่างไรก็ตามเงื่อนไขตามขวาง
หายไป
limt→∞e−ρtλ(t)=0
II ความพยายาม
กำหนดฟังก์ชั่นการจ่ายผลตอบแทน
J(u):=∫∞0e−ρtF(x,u)dt
โปรดทราบว่า
โดยคำนิยามของU) เพิ่มคำที่เป็นกลางให้กับส่วนผลตอบแทน start
∫∞0e−ρtλ[f(x,u)−x˙]dt=0
x˙=f(x,u)J(u)=∫∞0e−ρt[F(x,u)+λf(x,u)]dt−∫∞0e−ρtλx˙dt=∫∞0e−ρtH(x,u,λ)−∫∞0e−ρtλx˙dt
การบูรณาการโดยส่วนต่างๆของคำที่ถูกต้องบนผลตอบแทนที่ได้
∫∞0e−ρtλx˙dt=[e−ρtλ(t)x(t)]∞0−∫∞0e−ρtx(λ˙−ρλ)dt
ใช้คำว่า start
J(u)=∫∞0e−ρt[H(x,u,λ)+x(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)x(t)+λ(0)x(0)
กำหนด
xu=x∗+εq=u∗+εp
ซึ่งให้
J(ε)=∫∞0e−ρt[H(x∗+εq,u∗+εp,λ)+(x∗+εq)(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)[x∗(t)+εq(t)]+λ(0)x(0)
FOC สำหรับสูงสุดJ ε = ∫ ∞ 0 E - ρ T [ H x Q + H U P + Q ( ˙ λ - ρ λ ) ] งตัน- ลิมที→การ∞อี- ρ T λJε=0
Jε=∫∞0e−ρt[Hxq+Hup+q(λ˙−ρλ)]dt−limt→∞e−ρtλ(t)q(t)=0
เนื่องจากและไม่มีข้อ จำกัด เราจะต้องมี
qp
HuHxlimt→∞e−ρtλ(t)=0=ρλ−λ˙=0