ฉันกำลังพยายามที่จะใช้เครือข่ายประสาทเพื่อให้ใกล้เคียงกับ Q-ค่าใน Q-การเรียนรู้ในขณะที่มีคำถามเกี่ยวกับ Q-การเรียนรู้โดยใช้โครงข่ายประสาทเทียม ตามที่แนะนำในคำตอบแรกฉันใช้ฟังก์ชั่นการเปิดใช้งานเชิงเส้นสำหรับเลเยอร์เอาท์พุทในขณะที่ฉันยังคงใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ในเลเยอร์ที่ซ่อนอยู่ (2 แม้ว่าฉันจะสามารถเปลี่ยนได้ในภายหลัง) ฉันยังใช้ NN เดี่ยวที่คืนค่าเอาต์พุตสำหรับแต่ละการดำเนินการตามที่แนะนำ
อย่างไรก็ตามอัลกอริทึมยังคงแยกออกสำหรับปัญหาการทรงตัวของรถเข็นเสาอย่างง่าย ดังนั้นฉันกลัวว่าการอัปเดต Q ของฉันจะผิด หลังจากการเริ่มต้นสิ่งที่ฉันทำในแต่ละขั้นตอนมีดังต่อไปนี้:
- คำนวณโดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด
- เลือกการกระทำใหม่T , ที่ดินในรัฐใหม่s T
- คำนวณโดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด
- a t Q t + 1 ( s
- ตั้งค่าเวกเตอร์ข้อผิดพลาดเป็น
- เผยแพร่ข้อผิดพลาดผ่าน NN เพื่ออัปเดตการฝึกอบรมเรื่องน้ำหนัก
ใครช่วยชี้ให้ฉันที่ฉันผิดไปได้ไหม
นอกจากนี้คุณคิดว่าฉันควรรวมคำว่าอคติไว้ในชั้นข้อมูลเข้าและเลเยอร์ที่ซ่อนอยู่เป็นครั้งแรก (เช่นสำหรับฟังก์ชัน sigmoid) หรือไม่ มันจะสร้างความแตกต่างหรือไม่?
ขอบคุณล่วงหน้ามากสำหรับความช่วยเหลือของคุณ ฉันสามารถช่วยชี้แจงคำถามหรือแบ่งปันรหัสหากจำเป็น