ความหมายของปัจจัยส่วนลดต่อการเรียนรู้เสริมแรง
หลังจากอ่านความสำเร็จของgoogle deepmind ในเกมของอาตาริฉันพยายามเข้าใจ q-learning และ q-Networks แต่ฉันสับสนเล็กน้อย ความสับสนเกิดขึ้นในแนวคิดของปัจจัยส่วนลด สรุปโดยย่อของสิ่งที่ฉันเข้าใจ โครงข่ายประสาทเทียมแบบฝังลึกจะใช้ในการประเมินมูลค่าของค่าที่คาดหวังที่เหมาะสมที่สุดของการกระทำ เครือข่ายต้องลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด โดยที่ E s ′ [ y | s , a ]คือ E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ - i ) | s,a] โดยที่Qคือค่าคะแนนสะสมและrคือค่าคะแนนสำหรับการกระทำที่เลือก s,aและ sLi=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2]Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2] L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right] …