คำถามติดแท็ก temporal-difference

2
เมื่อใดที่วิธีการ Monte Carlo เป็นที่นิยมมากกว่าวิธีที่ต่างกันชั่วคราว?
ฉันได้ทำการค้นคว้ามากมายเกี่ยวกับการเสริมแรงการเรียนรู้เมื่อเร็ว ๆ นี้ ฉันติดตามการเรียนรู้การเสริมแรงของ Sutton & Barto : คำแนะนำสำหรับสิ่งส่วนใหญ่ ฉันรู้ว่ากระบวนการตัดสินใจของมาร์คอฟคืออะไรและวิธีการเรียนรู้การเขียนโปรแกรมแบบไดนามิก (DP), มอนติคาร์โลและความแตกต่างของ Temporal (DP) สามารถนำมาใช้แก้ปัญหาได้อย่างไร ปัญหาฉันมีคือว่าผมไม่เห็นเมื่อ Monte Carlo จะเป็นตัวเลือกที่ดีกว่า TD-การเรียนรู้ ความแตกต่างที่สำคัญระหว่างพวกเขาคือการเรียนรู้ด้วยระบบ TD ใช้การบูตสแตรปเพื่อประมาณค่าฟังก์ชั่นการกระทำและ Monte Carlo ใช้ค่าเฉลี่ยเพื่อทำสิ่งนี้ให้สำเร็จ ฉันไม่สามารถคิดถึงสถานการณ์จริง ๆ ได้เมื่อนี่เป็นวิธีที่ดีกว่า ฉันเดาว่ามันอาจมีบางอย่างเกี่ยวกับประสิทธิภาพ แต่ฉันไม่สามารถหาแหล่งที่สามารถพิสูจน์ได้ ฉันขาดอะไรบางอย่างหรือ TD-learning เป็นตัวเลือกที่ดีกว่าหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.