หลังจากอ่านความสำเร็จของgoogle deepmind ในเกมของอาตาริฉันพยายามเข้าใจ q-learning และ q-Networks แต่ฉันสับสนเล็กน้อย ความสับสนเกิดขึ้นในแนวคิดของปัจจัยส่วนลด สรุปโดยย่อของสิ่งที่ฉันเข้าใจ โครงข่ายประสาทเทียมแบบฝังลึกจะใช้ในการประเมินมูลค่าของค่าที่คาดหวังที่เหมาะสมที่สุดของการกระทำ เครือข่ายต้องลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด โดยที่ E s ′ [ y | s , a ]คือ E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ - i ) | s,a] โดยที่Qคือค่าคะแนนสะสมและrคือค่าคะแนนสำหรับการกระทำที่เลือก s,aและ s
จากจุดทางคณิตศาสตร์ของมุมมองเป็นปัจจัยส่วนลดและแสดงให้เห็นถึงความเป็นไปได้ที่จะไปถึงรัฐs 'จากรัฐs