ความหมายของปัจจัยส่วนลดต่อการเรียนรู้เสริมแรง


10

หลังจากอ่านความสำเร็จของgoogle deepmind ในเกมของอาตาริฉันพยายามเข้าใจ q-learning และ q-Networks แต่ฉันสับสนเล็กน้อย ความสับสนเกิดขึ้นในแนวคิดของปัจจัยส่วนลด สรุปโดยย่อของสิ่งที่ฉันเข้าใจ โครงข่ายประสาทเทียมแบบฝังลึกจะใช้ในการประเมินมูลค่าของค่าที่คาดหวังที่เหมาะสมที่สุดของการกระทำ เครือข่ายต้องลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด โดยที่ E s [ y | s , a ]คือ E [ r + γ m a x a Q ( s , a ; θ - i ) | s,a] โดยที่Qคือค่าคะแนนสะสมและrคือค่าคะแนนสำหรับการกระทำที่เลือก s,aและ s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,aเป็นลำดับของรัฐและการดำเนินการเลือกในเวลาที่เสื้อและของรัฐและการดำเนินการในขณะที่ที ' θ - ฉันมีน้ำหนักของเครือข่ายที่ซ้ำก่อนหน้านี้ γเป็นปัจจัยส่วนลดที่คำนึงถึงความแตกต่างชั่วคราวของค่าคะแนน ตัวห้อย iเป็นขั้นตอนชั่วคราว นี่คือปัญหาที่จะเข้าใจว่าทำไม γไม่ได้ขึ้นอยู่กับθs,attθiγiγθ

จากจุดทางคณิตศาสตร์ของมุมมองเป็นปัจจัยส่วนลดและแสดงให้เห็นถึงความเป็นไปได้ที่จะไปถึงรัฐs 'จากรัฐsγss

Qγγ=1

คำตอบ:


6

ssp(s|s,a)γysเป็นรางวัลที่ทันทีสำหรับรัฐนี้บวกกับสิ่งที่คุณคาดหวังที่จะได้รับในอนาคตเริ่มต้นจากsแต่ระยะเวลาในอนาคตนั้นจะต้องลดราคาเนื่องจากรางวัลในอนาคตอาจไม่ (ถ้า ) มีมูลค่าเท่ากันกับการได้รับรางวัลทันที (เช่นเดียวกับที่เราต้องการรับ$ 100 ตอนนี้แทนที่จะเป็น$ 100 ในวันพรุ่งนี้) ขึ้นอยู่กับคุณที่จะเลือกจำนวนเงินที่คุณต้องการคิดค่าเสื่อมราคาในอนาคตของคุณ (ขึ้นอยู่กับปัญหา) อัตราส่วนลดที่ 0 หมายความว่าคุณใส่ใจเฉพาะรางวัลในทันที ยิ่งอัตราส่วนลดของคุณสูงเท่าไหร่รางวัลของคุณก็จะยิ่งกระจายไปตามกาลเวลาsγ<1

ฉันขอแนะนำให้คุณอ่านหนังสือSutton & Bartoก่อนที่จะลอง Deep-Q เพื่อเรียนรู้การเสริมแรงอย่างแท้จริงนอกบริบทของเครือข่ายประสาทซึ่งอาจทำให้คุณสับสน


ขอบคุณสำหรับคำตอบของคุณ แต่ฉันยังมีข้อสงสัยอยู่บ้าง ฉันกำลังคิดที่ดัง ลองนึกภาพในทุกขั้นตอนคุณจะได้รับคะแนนและคุณต้องจ่ายเพื่อเริ่มเล่น ฉันจะคำนวณค่าที่คาดหวังได้อย่างไร ดีเพราะคุณกำลังเพิ่มคุณค่าของในช่วงเวลาที่แตกต่างกันในอนาคตไม่ได้หรือไม่ c E v = + i = 1 γ i d - c ddc
Ev=i=1+γidc
d
emanuele

ฉันจะทำลายแม้ว่า ค่าที่ถูกต้องสำหรับคืออะไร? ค่าที่ถูกต้องสำหรับคือค่าที่ให้ฉันค้าระหว่างปัจจุบันและฟิวเจอร์สผลตอบแทนและเป็น pคือความน่าจะเป็นที่จะอยู่รอดในขั้นตอนและนั่นคือเหตุผลที่1 การตรวจสอบคือโดยที่เป็นโอกาสที่จะอยู่รอดในทุกขั้นตอนและเป็นช่วงชีวิตที่คาดหวัง γกรัมเมตรเมตรγ=พีพีที0γ1หน้า
dγ1γ=c
γgammaγ=ppt0γ1τp1p=ττ
emanuele
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.