ฉันเห็นสมการต่อไปนี้ใน " ในการเสริมการเรียนรู้การแนะนำ " แต่ไม่ทำตามขั้นตอนที่ฉันเน้นด้วยสีน้ำเงินด้านล่าง ขั้นตอนนี้เกิดขึ้นได้อย่างไร
ฉันเห็นสมการต่อไปนี้ใน " ในการเสริมการเรียนรู้การแนะนำ " แต่ไม่ทำตามขั้นตอนที่ฉันเน้นด้วยสีน้ำเงินด้านล่าง ขั้นตอนนี้เกิดขึ้นได้อย่างไร
คำตอบ:
นี่คือคำตอบสำหรับทุกคนที่สงสัยเกี่ยวกับคณิตศาสตร์ที่สะอาดและมีโครงสร้างอยู่ข้างหลัง (เช่นถ้าคุณอยู่ในกลุ่มคนที่รู้ว่าตัวแปรสุ่มคืออะไรและคุณต้องแสดงหรือสมมติว่าตัวแปรสุ่มมีความหนาแน่นนี่คือ คำตอบสำหรับคุณ ;-)):
ก่อนอื่นเราต้องให้กระบวนการตัดสินใจของมาร์คอฟมีจำนวน จำกัด ของ -rewards จำนวน จำกัดนั่นคือเราต้องการให้มีจำนวน จำกัดของความหนาแน่นแต่ละตัวแปรที่เป็นของคือสำหรับและแผนที่เช่นนั้น
(กล่าวคือในออโตมาตะด้านหลัง MDP อาจมีหลายรัฐ แต่มีเพียงจำนวน จำกัด เท่านั้น - การกระจายการส่งต่อที่แนบมากับการเปลี่ยนอนันต์ระหว่างรัฐ)
ทฤษฎีบทที่ 1 : ปล่อย (เช่นตัวแปรสุ่มแบบจริง) และปล่อยให้เป็นตัวแปรสุ่มแบบอื่นที่มีความหนาแน่นทั่วไปจากนั้น
หลักฐาน : การพิสูจน์แล้วว่าเป็นหลักในที่นี่โดยสเตฟานแฮนเซน
ทฤษฎีบทที่ 2 : ปล่อยและปล่อยให้เป็นตัวแปรสุ่มเพิ่มเติมเช่นที่มีความหนาแน่นทั่วไปจากนั้น
ที่เป็นช่วงของZ
พิสูจน์ :
ใส่และใส่จากนั้นหนึ่งสามารถแสดง (ใช้ความจริงที่ว่า MDP มีจำนวน จำกัด -rewards มากมาย) ที่ลู่เข้าหากันและเนื่องจากฟังก์ชันยังคงอยู่ใน (เช่น integrable) หนึ่งยังสามารถแสดง (โดยใช้การรวมกันตามปกติของทฤษฎีบทของเสียงเดียวลู่และบรรจบกันแล้วครอบงำในการกำหนดสมการ [factorizations ของ] ความคาดหวังที่มีเงื่อนไข) ที่
ตอนนี้มีคนแสดงให้เห็นว่า
พื้นที่ของรัฐนั้นมี จำกัด (จากนั้นและผลรวมนั้นมี จำกัด ) หรือผลตอบแทนทั้งหมดเป็นบวกทั้งหมด (จากนั้นเราใช้การบรรจบแบบโมโนโทน) หรือผลตอบแทนทั้งหมดเป็นค่าลบ (จากนั้นเราใส่เครื่องหมายลบหน้า สมการและใช้การลู่เข้าแบบโมโนโทนอีกครั้ง) หรือผลตอบแทนทั้งหมดนั้นถูก จำกัด ขอบเขต (จากนั้นเราจะใช้การบรรจบที่โดดเด่น) จากนั้น (โดยการใช้ทั้งสองด้านของสมการ Bellman บางส่วน / จำกัด ข้างต้น) เราได้
และส่วนที่เหลือคือการจัดการความหนาแน่นปกติ
หมายเหตุ: แม้ในงานง่าย ๆ พื้นที่ของรัฐก็ไม่มีที่สิ้นสุด! ตัวอย่างหนึ่งก็คือ 'สมดุลเสา - งาน รัฐเป็นมุมของเสา (ค่าใน , เซตอนันต์นับไม่ได้!)
หมายเหตุ: ผู้คนอาจแสดงความคิดเห็น 'แป้งการพิสูจน์นี้สามารถสั้นกว่านี้ได้อีกถ้าคุณใช้ความหนาแน่นของโดยตรงและแสดงว่า '... แต่ ... คำถามของฉันจะเป็น:
ให้ผลรวมของผลตอบแทนที่ลดหลังจากเวลาเป็น:
ยูทิลิตี้มูลค่าของการเริ่มต้นในรัฐที่เวลาจะเทียบเท่ากับผลรวมที่คาดหวังของ
ผลตอบแทนที่ลดในการดำเนินนโยบายเริ่มต้นจากรัฐเป็นต้นไป
ตามคำจำกัดความของตามกฎของการเชิงเส้น
ตามกฎหมายของ
ความคาดหวังโดยรวม
โดยนิยามของตามกฎของความเป็นเชิงเส้น
สมมติว่าตอบสนองกระบวนการมาร์คอฟอสังหาริมทรัพย์:
ความน่าจะเป็นของการสิ้นสุดในรัฐมีการเริ่มต้นจากรัฐและดำเนินการ,
และ
รางวัลของการสิ้นสุดในสถานะเริ่มต้นจากสถานะและดำเนินการ ,
ดังนั้นเราจึงสามารถเขียนสมการยูทิลิตี้ใหม่ได้ในชื่อ
ไหน; : ความน่าจะเป็นของการดำเนินการเมื่ออยู่ในสถานะสำหรับนโยบายสุ่ม สำหรับนโยบายที่กำหนดขึ้นได้
นี่คือหลักฐานของฉัน มันขึ้นอยู่กับการจัดการของการแจกแจงแบบมีเงื่อนไขซึ่งทำให้ง่ายต่อการติดตาม หวังว่าคนนี้จะช่วยคุณ
What's with the following approach?
The sums are introduced in order to retrieve , and from . After all, the possible actions and possible next states can be . With these extra conditions, the linearity of the expectation leads to the result almost directly.
I am not sure how rigorous my argument is mathematically, though. I am open for improvements.
This is just a comment/addition to the accepted answer.
I was confused at the line where law of total expectation is being applied. I don't think the main form of law of total expectation can help here. A variant of that is in fact needed here.
If are random variables and assuming all the expectation exists, then the following identity holds:
In this case, , and . Then
, which by Markov property eqauls to
From there, one could follow the rest of the proof from the answer.
usually denotes the expectation assuming the agent follows policy . In this case seems non-deterministic, i.e. returns the probability that the agent takes action when in state .
It looks like , lower-case, is replacing , a random variable. The second expectation replaces the infinite sum, to reflect the assumption that we continue to follow for all future . is then the expected immediate reward on the next time step; The second expectation—which becomes —is the expected value of the next state, weighted by the probability of winding up in state having taken from .
Thus, the expectation accounts for the policy probability as well as the transition and reward functions, here expressed together as .
even though the correct answer has already been given and some time has passed, I thought the following step by step guide might be useful:
By linearity of the Expected Value we can split
into and .
I will outline the steps only for the first part, as the second part follows by the same steps combined with the Law of Total Expectation.
Whereas (III) follows form:
I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over and . Let assume we start from (in fact, the derivation is the same regardless of the starting time; I do not want to contaminate the equations with another subscript )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule() painstakingly.
Let us apply the law of linearity of Expectation to each term inside the
Part 1
Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to . Therefore, we have
Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.
And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with , and we obtain
and part 2 becomes
Part 1 + Part 2
And now if we can tuck in the time dimension and recover the general recursive formulae
Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am
There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,
is defined in equation 3.11 of Sutton and Barto, with a constant discount factor and we can have or , but not both. Since the rewards, , are random variables, so is as it is merely a linear combination of random variables.
That last line follows from the linearity of expectation values. is the reward the agent gains after taking action at time step . For simplicity, I assume that it can take on a finite number of values .
Work on the first term. In words, I need to compute the expectation values of given that we know that the current state is . The formula for this is
In other words the probability of the appearance of reward is conditioned on the state ; different states may have different rewards. This distribution is a marginal distribution of a distribution that also contained the variables and , the action taken at time and the state at time after the action, respectively:
Where I have used , following the book's convention. If that last equality is confusing, forget the sums, suppress the (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on in all the new terms. It in now easy to see that the first term is
as required. On to the second term, where I assume that is a random variable that takes on a finite number of values . Just like the first term:
Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)
The last line in there follows from the Markovian property. Remember that is the sum of all the future (discounted) rewards that the agent receives after state . The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so , by assumption. Ok, so the second term in the proof is now
as required, once again. Combining the two terms completes the proof
UPDATE
I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with , I use a term and then later in the equation marked I claim that doesn't depend on , by arguing the Markovian property. So, you might say that if this is the case, then . But this is not true. I can take because the probability on the left side of that statement says that this is the probability of conditioned on , , , and . Because we either know or assume the state , none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state , then the future rewards (the meaning of ) will depend on which state you begin at, because that will determine (based on the policy) which state you start at when computing .
If that argument doesn't convince you, try to compute what is:
As can be seen in the last line, it is not true that . The expected value of depends on which state you start in (i.e. the identity of ), if you do not know or assume the state .