ความหมายของปัจจัยส่วนลดต่อการเรียนรู้เสริมแรง

หลังจากอ่านความสำเร็จของgoogle deepmind ในเกมของอาตาริฉันพยายามเข้าใจ q-learning และ q-Networks แต่ฉันสับสนเล็กน้อย ความสับสนเกิดขึ้นในแนวคิดของปัจจัยส่วนลด สรุปโดยย่อของสิ่งที่ฉันเข้าใจ โครงข่ายประสาทเทียมแบบฝังลึกจะใช้ในการประเมินมูลค่าของค่าที่คาดหวังที่เหมาะสมที่สุดของการกระทำ เครือข่ายต้องลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด โดยที่คือ โดยที่คือค่าคะแนนสะสมและคือค่าคะแนนสำหรับการกระทำที่เลือก และ

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

เป็นลำดับของรัฐและการดำเนินการเลือกในเวลาที่

และของรัฐและการดำเนินการในขณะที่

มีน้ำหนักของเครือข่ายที่ซ้ำก่อนหน้านี้

เป็นปัจจัยส่วนลดที่คำนึงถึงความแตกต่างชั่วคราวของค่าคะแนน ตัวห้อย

เป็นขั้นตอนชั่วคราว นี่คือปัญหาที่จะเข้าใจว่าทำไม

ไม่ได้ขึ้นอยู่กับθ

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

จากจุดทางคณิตศาสตร์ของมุมมองเป็นปัจจัยส่วนลดและแสดงให้เห็นถึงความเป็นไปได้ที่จะไปถึงรัฐจากรัฐs $\gamma$ $s'$ $s$

$Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— มานูเอล
แหล่งที่มา

$s′$ $s$ $p(s'|s,a)$ $γ$ $y$ $s$ เป็นรางวัลที่ทันทีสำหรับรัฐนี้บวกกับสิ่งที่คุณคาดหวังที่จะได้รับในอนาคตเริ่มต้นจากsแต่ระยะเวลาในอนาคตนั้นจะต้องลดราคาเนื่องจากรางวัลในอนาคตอาจไม่ (ถ้า ) มีมูลค่าเท่ากันกับการได้รับรางวัลทันที (เช่นเดียวกับที่เราต้องการรับ$ 100 ตอนนี้แทนที่จะเป็น$ 100 ในวันพรุ่งนี้) ขึ้นอยู่กับคุณที่จะเลือกจำนวนเงินที่คุณต้องการคิดค่าเสื่อมราคาในอนาคตของคุณ (ขึ้นอยู่กับปัญหา) อัตราส่วนลดที่ 0 หมายความว่าคุณใส่ใจเฉพาะรางวัลในทันที ยิ่งอัตราส่วนลดของคุณสูงเท่าไหร่รางวัลของคุณก็จะยิ่งกระจายไปตามกาลเวลา $s$ $γ < 1$

ฉันขอแนะนำให้คุณอ่านหนังสือSutton & Bartoก่อนที่จะลอง Deep-Q เพื่อเรียนรู้การเสริมแรงอย่างแท้จริงนอกบริบทของเครือข่ายประสาทซึ่งอาจทำให้คุณสับสน

— rcpinto
แหล่งที่มา

ขอบคุณสำหรับคำตอบของคุณ แต่ฉันยังมีข้อสงสัยอยู่บ้าง ฉันกำลังคิดที่ดัง ลองนึกภาพในทุกขั้นตอนคุณจะได้รับคะแนนและคุณต้องจ่ายเพื่อเริ่มเล่น ฉันจะคำนวณค่าที่คาดหวังได้อย่างไร ดีเพราะคุณกำลังเพิ่มคุณค่าของในช่วงเวลาที่แตกต่างกันในอนาคตไม่ได้หรือไม่

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

— emanuele

ฉันจะทำลายแม้ว่า ค่าที่ถูกต้องสำหรับคืออะไร? ค่าที่ถูกต้องสำหรับคือค่าที่ให้ฉันค้าระหว่างปัจจุบันและฟิวเจอร์สผลตอบแทนและเป็น pคือความน่าจะเป็นที่จะอยู่รอดในขั้นตอนและนั่นคือเหตุผลที่1 การตรวจสอบคือโดยที่เป็นโอกาสที่จะอยู่รอดในทุกขั้นตอนและเป็นช่วงชีวิตที่คาดหวัง

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$

— emanuele