การเรียนรู้โครงสร้างของงานเสริมกำลังตามลำดับชั้น

ฉันได้เรียนรู้ปัญหาการเรียนรู้การเสริมแรงแบบลำดับชั้นและในขณะที่เอกสารจำนวนมากเสนออัลกอริทึมสำหรับการเรียนรู้นโยบายพวกเขาทั้งหมดดูเหมือนว่าพวกเขารู้ล่วงหน้าเกี่ยวกับโครงสร้างกราฟที่อธิบายลำดับชั้นของการกระทำในโดเมน ตัวอย่างเช่นวิธี MAXQ สำหรับการเรียนรู้การเสริมแรงแบบลำดับชั้นโดย Dietterich อธิบายกราฟของการกระทำและงานย่อยสำหรับโดเมนแท็กซี่ที่เรียบง่าย แต่ไม่ใช่วิธีการค้นพบกราฟนี้ คุณจะเรียนรู้ลำดับชั้นของกราฟนี้อย่างไรไม่ใช่แค่นโยบาย

กล่าวอีกนัยหนึ่งโดยใช้ตัวอย่างของเอกสารหากรถแท็กซี่วิ่งไปรอบ ๆ อย่างไร้จุดหมายโดยที่มีความรู้มาก่อนเล็กน้อยเกี่ยวกับโลกและมีเพียงการกระทำแบบดั้งเดิมย้ายซ้าย / ขวา - ขวา / ฯลฯ ที่จะทำอย่างไร ไปรับส่งผู้โดยสาร? หากฉันเข้าใจกระดาษอย่างถูกต้อง (และฉันอาจไม่ใช่) มันจะเสนอวิธีการอัปเดตนโยบายสำหรับการดำเนินการระดับสูงเหล่านี้ แต่ไม่ใช่วิธีการที่พวกเขาเริ่มก่อตัวขึ้น

machine-learning

— Cerin
แหล่งที่มา

ตามบทความนี้

ในปัจจุบันผู้ออกแบบระบบ RL ใช้ความรู้ก่อนหน้าเกี่ยวกับงานเพื่อเพิ่มชุดตัวเลือกเฉพาะให้กับชุดของการกระทำดั้งเดิมที่มีให้กับตัวแทน

ดูหัวข้อ 6.2 ลำดับชั้นภารกิจการเรียนรู้ในเอกสารเดียวกัน

ความคิดแรกที่อยู่ในใจของฉันคือถ้าคุณไม่รู้จักลำดับชั้นของงานคุณควรเริ่มต้นด้วยการเรียนรู้การเสริมแรงแบบไม่เป็นลำดับชั้นและพยายามค้นหาโครงสร้างในภายหลังหรือในขณะที่เรียนรู้เช่นคุณกำลังพยายามทำให้โมเดลของคุณเป็นแบบทั่วไป สำหรับฉันงานนี้มีลักษณะคล้ายกับเทคนิคการผสานแบบจำลอง Bayesian สำหรับ HMM (ตัวอย่างเช่นดูวิทยานิพนธ์นี้)

— Alexey Kalmykov
แหล่งที่มา