ข้อมูลประกอบ:
ฉันใช้การประมาณค่า Q ของโครงข่ายใยประสาทเทียมในงานการเรียนรู้การเสริมแรงของฉัน วิธีการนั้นเหมือนกับที่อธิบายไว้ในคำถามนี้แต่คำถามนั้นแตกต่างกัน
ในแนวทางนี้จำนวนผลลัพธ์คือจำนวนการกระทำที่เราสามารถทำได้ และในคำง่ายขั้นตอนต่อไปนี้: กระทำ A, สำรวจรางวัลขอ NN ที่จะคาดการณ์ค่า Q สำหรับการกระทำที่เป็นไปได้ทั้งหมดให้เลือกค่า Q สูงสุดคำนวณ Q R + max(new_state_Q)
สำหรับการดำเนินการโดยเฉพาะอย่างยิ่ง รุ่น Fit บนคาดการณ์ค่า Q R + max(new_state_Q)
ที่มีเพียงหนึ่งของพวกเขาถูกแทนที่ด้วย
คำถาม:วิธีการนี้มีประสิทธิภาพเพียงใดหากจำนวนผลผลิตมีขนาดใหญ่
ความพยายาม:สมมติว่ามี 10 การกระทำที่เราสามารถทำได้ ในแต่ละขั้นตอนเราขอให้แบบจำลองทำนายค่า 10 ค่าตั้งแต่อายุยังน้อยของแบบจำลองการทำนายนี้เป็นความยุ่งเหยิงโดยรวม จากนั้นเราปรับเปลี่ยนค่า 1 ของผลลัพธ์และปรับโมเดลให้เหมาะสมกับค่าเหล่านี้
ฉันมีความคิดที่ตรงกันข้ามสองประการเกี่ยวกับวิธีการที่ดี \ เลวคือวิธีการนี้และไม่สามารถตัดสินใจได้ว่าวิธีใดที่ถูกต้อง:
- จากมุมมองหนึ่งเรากำลังฝึกอบรมแต่ละเซลล์ประสาท 9 ครั้งในข้อมูลสุ่มและเพียงครั้งเดียวในข้อมูลที่ใกล้เคียงกับมูลค่าที่แท้จริง หาก NN ทำนายค่า 5 สำหรับการดำเนินการ A ในสถานะ S แต่ค่าจริงคือ -100 เราจะใส่ NN 9 ครั้งด้วยค่า 5 แล้วตามด้วยค่า -100 ฟังดูบ้า
- จากมุมมองอื่น ๆ การเรียนรู้ของโครงข่ายประสาทจะถูกนำไปใช้เป็นข้อผิดพลาดด้านหลังดังนั้นเมื่อแบบจำลองได้ทำนาย 5 และเรากำลังฝึกอบรมในข้อ 5 มันจะไม่เรียนรู้สิ่งใหม่เนื่องจากข้อผิดพลาดคือ 0 น้ำหนักไม่ได้สัมผัส . และเมื่อเราจะคำนวณ -100 และพอดีกับแบบจำลองมันจะทำการคำนวณน้ำหนักใหม่
ตัวเลือกใดถูกต้อง? อาจมีอย่างอื่นที่ฉันไม่ได้คำนึงถึง?
ปรับปรุง: โดย "มีประสิทธิภาพ" ฉันหมายถึงการเปรียบเทียบกับวิธีการที่มีหนึ่งผลผลิต - รางวัลที่คาดการณ์ไว้ แน่นอนการกระทำจะเป็นส่วนหนึ่งของการป้อนข้อมูลในกรณีนี้ ดังนั้นวิธีที่ # 1 ทำให้การคาดการณ์สำหรับการกระทำทั้งหมดขึ้นอยู่กับบางรัฐวิธีที่ # 2 ทำให้การคาดการณ์สำหรับการกระทำที่เฉพาะเจาะจงในบางรัฐ