ฉันได้เรียนรู้ปัญหาการเรียนรู้การเสริมแรงแบบลำดับชั้นและในขณะที่เอกสารจำนวนมากเสนออัลกอริทึมสำหรับการเรียนรู้นโยบายพวกเขาทั้งหมดดูเหมือนว่าพวกเขารู้ล่วงหน้าเกี่ยวกับโครงสร้างกราฟที่อธิบายลำดับชั้นของการกระทำในโดเมน ตัวอย่างเช่นวิธี MAXQ สำหรับการเรียนรู้การเสริมแรงแบบลำดับชั้นโดย Dietterich อธิบายกราฟของการกระทำและงานย่อยสำหรับโดเมนแท็กซี่ที่เรียบง่าย แต่ไม่ใช่วิธีการค้นพบกราฟนี้ คุณจะเรียนรู้ลำดับชั้นของกราฟนี้อย่างไรไม่ใช่แค่นโยบาย
กล่าวอีกนัยหนึ่งโดยใช้ตัวอย่างของเอกสารหากรถแท็กซี่วิ่งไปรอบ ๆ อย่างไร้จุดหมายโดยที่มีความรู้มาก่อนเล็กน้อยเกี่ยวกับโลกและมีเพียงการกระทำแบบดั้งเดิมย้ายซ้าย / ขวา - ขวา / ฯลฯ ที่จะทำอย่างไร ไปรับส่งผู้โดยสาร? หากฉันเข้าใจกระดาษอย่างถูกต้อง (และฉันอาจไม่ใช่) มันจะเสนอวิธีการอัปเดตนโยบายสำหรับการดำเนินการระดับสูงเหล่านี้ แต่ไม่ใช่วิธีการที่พวกเขาเริ่มก่อตัวขึ้น