อะไรคือความร่วมมือในการเรียนรู้เสริม?

เห็นได้ชัดว่าในการเรียนรู้การเสริมแรงวิธี temporal-different (TD) เป็นวิธีการบูตสแตรป ในทางกลับกันวิธีมอนติคาร์โลไม่ใช่วิธีการบูตสแตรป

bootstrapping ใน RL คืออะไร วิธี bootstrapping ใน RL คืออะไร?

reinforcement-learning

— nbro
แหล่งที่มา

การอ่านการบูตใน RL นั้นสามารถอ่านได้ว่า "การใช้ค่าโดยประมาณตั้งแต่หนึ่งค่าขึ้นไปในขั้นตอนการอัปเดตสำหรับค่าประมาณชนิดเดียวกัน "

ในกฎการอัพเดท TD ส่วนใหญ่คุณจะเห็นการอัปเดต SARSA (0) นี้:

Q (s, a) \leftarrow Q (s, a) + α (R_{t + 1} + γ Q (s^{'}, a^{'}) - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma Q(s',a') - Q(s,a))$

ค่า $R_{t+1} + \gamma Q(s',a')$ เป็นการประมาณค่าจริงของ $Q(s,a)$ และยังเรียกว่าเป้าหมาย TD มันเป็นวิธีบูตสแตรปเพราะเราอยู่ในส่วนที่ใช้ค่า Q เพื่อปรับปรุงค่า Q อื่น มีจำนวนเล็ก ๆ ของข้อมูลที่สังเกตได้จริงในรูปแบบของการเป็น $R_{t+1}$ , รางวัลทันทีสำหรับขั้นตอนและยังอยู่ในช่วงการเปลี่ยนรัฐ $s \rightarrow s'$ '

ตัดกับ Monte Carlo ซึ่งอาจมีกฎการอัพเดทที่เทียบเท่า:

Q (s, a) \leftarrow Q (s, a) + α (G_{t} - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(G_{t} - Q(s,a))$

ที่ $G_{t}$ คือรางวัลที่ได้รับส่วนลดทั้งหมดในเวลา $t$ สมมติว่าในการอัปเดตนี้เริ่มต้นในสถานะ $s$ ดำเนินการ $a$ จากนั้นปฏิบัติตามนโยบายปัจจุบันจนกระทั่งจบตอน ในทางเทคนิคแล้ว $G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$ โดยที่ $T$ เป็นขั้นตอนเวลาสำหรับรางวัลเทอร์มินัลและสถานะ โดยเฉพาะอย่างยิ่งค่าเป้าหมายนี้ไม่ได้ใช้การประมาณการที่มีอยู่ใด ๆ (จากค่า Q อื่น ๆ ) แต่จะใช้ชุดการสังเกต (เช่นรางวัล) จากสภาพแวดล้อมเท่านั้น เป็นเช่นนั้นรับประกันได้ว่าจะเป็นกลางประมาณการของมูลค่าที่แท้จริงของ $Q(s,a)$ ขณะที่มันเป็นเทคนิคตัวอย่างของ $Q(s,a)$ )

ข้อเสียเปรียบหลักของการบูตสแตรปคือมันเอนเอียงไปทางค่าเริ่มต้นของ $Q(s',a')$ (หรือ $V(s')$ ) สิ่งเหล่านี้เป็นสิ่งที่ผิดมากที่สุดและระบบการอัปเดตอาจไม่เสถียรในภาพรวมเนื่องจากมีการอ้างอิงตนเองมากเกินไปและมีข้อมูลจริงไม่เพียงพอซึ่งเป็นปัญหาของการเรียนรู้นอกนโยบาย (เช่นการเรียนรู้แบบ Q) โดยใช้เครือข่ายประสาท

โดยไม่ต้องใช้วิธีการ bootstrapping โดยใช้วิถีที่ยาวกว่ามักจะมีความแปรปรวนสูงแทนซึ่งในทางปฏิบัติหมายความว่าคุณต้องการตัวอย่างมากขึ้นก่อนที่ค่าประมาณจะมารวมกัน ดังนั้นแม้จะมีปัญหากับการบูตสแตรปปิ้ง แต่ถ้ามันสามารถทำงานได้มันอาจเรียนรู้ได้เร็วกว่าและมักเป็นที่นิยมมากกว่าวิธีมอนติคาร์โล

คุณสามารถประนีประนอมระหว่างวิธีการตามตัวอย่างของ Monte Carlo และวิธีการขั้นตอนเดียวของ TD ที่บูตโดยใช้การผสมผสานของผลลัพธ์จากวิถีความยาวต่างกัน สิ่งนี้เรียกว่าการเรียนรู้TD ( $\lambda$ )และมีวิธีการที่หลากหลายเช่น SARSA ( $\lambda$ ) หรือ Q ( $\lambda$ )

— Neil Slater
แหล่งที่มา

นี่อาจเป็นคำถามอื่น แต่ถ้าคุณต้องการคำตอบว่าทำไมเป็น

และประมาณการสำหรับ

R_{t + 1} + γ Q (s^{'}, a^{'})

$R_{t+1} + \gamma Q(s',a')$

Q (s, a)

$Q(s, a)$

— nbro

@nbro: เพราะที่คอนเวอร์เจนซ์

(สมการเหล่านี้และ RL มากที่สุดคือการขับเคลื่อนด้วยสมยามสำหรับ MDPs) โดยดูที่เหตุการณ์ที่เกิดขึ้นจริงที่เกิดขึ้นเริ่มต้นด้วยรัฐ

และการกระทำ

Q (s, a) = E [R_{t + 1} + γ Q (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a]

$Q(s,a) = \mathbb{E}[R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) | S_t = s, A_t =a]$

s

$s$

a

$a$ จากนั้นคุณก็จะสุ่มตัวอย่างจากความคาดหวังนั้น ปัญหาคือแม้ว่าค่าที่คุณมีสำหรับ

อาจยังไม่ได้แปรสภาพดังนั้นตัวอย่างจึงมีอคติ

Q (S_{t + 1}, A_{t + 1})

$Q(S_{t+1},A_{t+1})$

— Neil Slater

สิ่งใดที่ป้องกันไม่ให้วิธีการหนึ่งใช้ MC เป็นเบิร์นอินเฟสก่อนที่จะเปลี่ยนเป็นการบูตสแตรป หรืออาจจะได้รับการพิจารณานี้ย่อยกรณีของ

λ - T D

$\lambda-TD$

— n1k31t4

@ n1k31t4: ไม่มีสิ่งใดขัดขวางการทำเช่นนี้และควรเป็นวิธี RL ที่ถูกต้อง มันจะแตกต่างจาก TD (

) แต่ได้แรงบันดาลใจจากแนวคิดเดียวกันในการพยายามรับคุณสมบัติที่ดีจากอัลกอริทึมทั้งสอง คุณจะต้องลองและเปรียบเทียบประสิทธิภาพการเรียนรู้กับ TD (

) - คุณยังมีพารามิเตอร์ไฮเปอร์เพื่อปรับแต่งซึ่งเป็นจำนวนตอนที่ใช้รัน MC สำหรับ รุ่นทั่วไปจะอนุญาตให้

เปลี่ยน - เริ่มต้นด้วย

แล้วสลายมันลงมาเช่น

หรือค่าใด ๆ ที่ดูเหมือนจะเหมาะสมที่สุด อย่างไรก็ตามนั่นมีพารามิเตอร์ไฮเปอร์ 2 ตัวอัตราการสลายตัวและเป้าหมายสำหรับ

λ

$\lambda$

λ

$\lambda$

λ

$\lambda$

λ = 1

$\lambda = 1$

0.4

$0.4$

λ

$\lambda$

— Neil Slater

@NeilSlater เมื่อใช้ bootstrapping มันสามารถรวมกันได้ไหม ฉันไม่สามารถเข้าใจได้ว่าทำไมมันควรจะเนื่องจาก Q (s ', a') เป็นเพียงการเดาตามอำเภอใจซึ่งจะบิดเบือนการประมาณสำหรับ Q (s, a) นอกจากนี้ทำไม MC ถึงมีความแปรปรวนสูงเมื่อเทียบกับ TD

— d56

โดยทั่วไป bootstrapping ใน RL หมายความว่าคุณอัปเดตค่าตามค่าประมาณและไม่ใช่ค่าที่แน่นอน เช่น

การปรับปรุงนโยบายการประเมินผล Monte Carlo ที่เพิ่มขึ้น:

$V(S_t) = V(S_t) + \alpha(G_t - V(S_t))$

การอัพเดตนโยบายการประเมินผล TD (0):

$V(S_t) = V(S_t) + \alpha(R_{t+1} + \gamma V(S_{t+1}) - V(S_t))$

ใน TD (0) ที่กลับมาเริ่มต้นจากรัฐเป็นประมาณ (bootstrapped) โดยขณะที่อยู่ใน MC เราใช้ที่แน่นอนผลตอบแทนที $s$ $R_{t+1} + \gamma V(S_{t+1})$ $G_t$

— plopd
แหล่งที่มา