5
ฟังก์ชั่นถามคืออะไรและฟังก์ชั่น V ในการเรียนรู้การเสริมแรงคืออะไร?
สำหรับฉันแล้วดูเหมือนว่าฟังก์ชั่นสามารถแสดงออกได้อย่างง่ายดายด้วยฟังก์ชั่นและทำให้ฟังก์ชั่นดูเหมือนจะไม่จำเป็นสำหรับฉัน อย่างไรก็ตามฉันใหม่เพื่อเสริมการเรียนรู้ดังนั้นฉันคิดว่าฉันมีบางอย่างผิดปกติVVVQQQVVV คำนิยาม Q- และ V-การเรียนรู้อยู่ในบริบทของมาร์คอฟกระบวนการตัดสินใจ MDPเป็น 5 tupleด้วย(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSSคือชุดของสถานะ (โดยทั่วไปจะ จำกัด ) AAAคือชุดของการกระทำ (โดยทั่วไป จำกัด ) s s ′ aP(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)ความน่าจะเป็นที่จะได้รับจากรัฐไปยังรัฐด้วยการกระทำssss′s′s'aaa s s ′ a s ′R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}เป็นรางวัลที่ได้ทันทีหลังจากที่ไปจากรัฐไปยังรัฐด้วยการกระทำ (สำหรับฉันดูเหมือนว่าโดยทั่วไปมักเรื่องของ)ssss′s′s'aaas′s′s' γ …