ทำไมอัตราคิดลดในอัลกอริทึม REINFORCE ปรากฏสองครั้ง

11

ฉันกำลังอ่านหนังสือเสริมการเรียนรู้: บทนำโดย Richard S. Sutton และ Andrew G. Barto (ฉบับร่างสมบูรณ์, 5 พฤศจิกายน 2017)

บนหน้า 271 รหัสหลอกสำหรับวิธีการนโยบายไล่ระดับสี Monte-Carlo หลักการจะแสดง ดูโค้ดหลอกนี้ฉันไม่เข้าใจว่าทำไมมันดูเหมือนว่าอัตราส่วนลดปรากฏขึ้น 2 ครั้งหนึ่งครั้งในสถานะอัพเดตและครั้งที่สองภายในผลตอบแทน [ดูรูปด้านล่าง]

ดูเหมือนว่าการคืนค่าสำหรับขั้นตอนหลังจากขั้นตอนที่ 1 เป็นเพียงการตัดทอนการคืนค่าของขั้นตอนแรก นอกจากนี้หากคุณดูเพียงหนึ่งหน้าข้างบนในหนังสือคุณจะพบสมการที่มีอัตราส่วนลดเพียง 1 รายการ (หนึ่งในผลตอบแทน)

ทำไมรหัสเทียมดูไม่เหมือนกัน? ฉันเดาว่าฉันเข้าใจผิดบางสิ่ง:

\begin{matrix} (13.6) & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π (A_{t} | S_{t}, θ_{t})}{π (A_{t} | S_{t}, θ_{t})} . \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— Diego Orellana
แหล่งที่มา

5

ตัวคูณส่วนลดจะปรากฏขึ้นสองครั้งและสิ่งนี้ถูกต้อง

นี่เป็นเพราะฟังก์ชั่นที่คุณพยายามที่จะเพิ่มสูงสุดในการป้องกันสำหรับปัญหาตอน (โดยการไล่ระดับสี) เป็นผลตอบแทนที่คาดหวังจากสถานะเริ่มต้นที่กำหนด (การกระจาย)

J (θ) = E_{π (θ)} [G_{t} | S_{t} = s_{0}, t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

ดังนั้นในตอนนี้เมื่อคุณสุ่มตัวอย่างผลตอบแทน , อื่น ๆ สิ่งเหล่านี้จะเกี่ยวข้องกับปัญหาที่คุณกำลังแก้ไขน้อยลงโดยปัจจัยส่วนลดเป็นครั้งที่สองตามที่คุณบันทึกไว้ ที่รุนแรงกับปัญหาหลักการและ $G_1$ $G_2$ $\gamma = 0$ จากนั้น REINFORCE จะค้นหานโยบายที่ดีที่สุดสำหรับการกระทำแรกเท่านั้น

ขั้นตอนวิธีการอื่น ๆ ในการทำงานว่าในปัญหาที่เกิดขึ้นอย่างต่อเนื่องเช่นการใช้นักแสดงนักวิจารณ์สูตรที่แตกต่างสำหรับจึงไม่ได้มีปัจจัยที่ที $J(\theta)$ $\gamma^t$

— Neil Slater
แหล่งที่มา

5

คำตอบของนีลแล้วให้สัญชาตญาณบางอย่างว่าทำไม pseudocode (มีพิเศษยาว) มีความถูกต้อง $\gamma^t$

ฉันแค่อยากจะอธิบายเพิ่มเติมว่าคุณดูเหมือนจะไม่เข้าใจอะไรเลยสมการ (13.6) ในหนังสือเล่มนี้แตกต่างจากนามแฝงจริง

ตอนนี้ฉันไม่มีหนังสือฉบับที่คุณพูดถึงที่นี่ แต่ฉันมีฉบับร่างภายหลังในวันที่ 22 มีนาคม 2018 และข้อความในหัวข้อเฉพาะนี้ดูเหมือนจะคล้ายกัน ในฉบับนี้:

ใกล้ถึงจุดสิ้นสุดของหน้า 326 มีการกล่าวถึงอย่างชัดเจนว่าพวกเขาจะถือว่า $\gamma = 1$ ในบทพิสูจน์สำหรับทฤษฎีบทการไล่ระดับสีของนโยบาย
การพิสูจน์นั้นในที่สุดนำไปสู่สมการเดียวกัน (13.6) ในหน้า 329
ทันทีด้านล่าง pseudocode บนหน้า 330, พวกเขาเป็นจริงที่อยู่ในเวลาสั้น ๆ ความแตกต่างระหว่างสมและ pseudocode ที่บอกว่าความแตกต่างที่เกิดจากการสันนิษฐานของในหลักฐาน $\gamma = 1$
$\gamma < 1$

— Dennis Soemers
แหล่งที่มา

2

ขอบคุณ คำอธิบายจุดที่สามของคุณหายไปจากร่าง 2017

— Diego Orellana

2

@DiegoOrellana ฉันไม่สามารถหาลิงค์ไปยัง 22 มีนาคมร่างอีกต่อไป, มีปรากฏเป็นร่างแม้ต่อมา (ไม่สามารถหาวันกล่าวถึง) ที่นี่ รุ่นนี้มีปกที่แฟนซีดังนั้นอาจเป็นรุ่นสุดท้ายแทนที่จะเป็นร่าง หากลิงก์ไม่ได้รับการหักในอนาคตผมสงสัยว่าการเชื่อมโยงใหม่จะให้บริการที่นี่

— เดนนิส Soemers

3

มันเป็นปัญหาที่ลึกซึ้ง

หากคุณดูอัลกอริทึม A3C ในเอกสารต้นฉบับ (p.4 และภาคผนวก S3 สำหรับรหัสหลอก) อัลกอริทึมนักวิจารณ์นักแสดงของพวกเขา (อัลกอริทึมเดียวกันปัญหาทั้งฉากและการศึกษาต่อเนื่อง) ถูกปิดโดยปัจจัยของแกมม่าที่สัมพันธ์กับนักแสดง - นักวิจารณ์หลอกรหัสสำหรับปัญหาตอนในหนังสือ Sutton และ Barto (p.332 ของเดือนมกราคม 2019 ฉบับhttp://incompleteideas.net/book/the-book.html ) หนังสือ Sutton and Barto มีแกมม่า "แรก" พิเศษตามที่ระบุไว้ในรูปภาพของคุณ ดังนั้นไม่ว่าจะเป็นหนังสือหรือกระดาษ A3C ไม่ได้จริงๆ

กุญแจอยู่บนหน้า 199 ของหนังสือ Sutton และ Barto:

หากมีการลดราคา (แกมม่า <1) ควรได้รับการพิจารณาว่าเป็นรูปแบบของการยุติซึ่งสามารถทำได้ง่ายๆโดยการรวมปัจจัยในระยะที่สองของ (9.2)

ประเด็นที่ลึกซึ้งคือการตีความแกมม่าปัจจัยลดราคาสองแบบ:

ปัจจัยหลายตัวที่ทำให้น้ำหนักน้อยลงสำหรับรางวัลในอนาคตที่ห่างไกล
ความน่าจะเป็นที่ 1 - แกมม่าที่วิถีการจำลองแบบลวก ๆ ยุติในเวลาใดก็ได้ การตีความนี้มีเหตุผลสำหรับกรณีที่เป็นกรณี ๆ เท่านั้นและไม่ใช่กรณีต่อเนื่อง

การใช้งานตามตัวอักษร:

เพียงแค่คูณรางวัลในอนาคตและปริมาณที่เกี่ยวข้อง (V หรือ Q) ในอนาคตด้วยแกมม่า
จำลองวิถีบางอย่างและสุ่มยุติ (1 - แกมม่า) ของพวกเขาในแต่ละขั้นตอน วิถีที่สิ้นสุดจะไม่ให้ผลตอบแทนทันทีหรือในอนาคต

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

คุณสามารถเลือกการตีความแกมม่าใดก็ได้ แต่คุณต้องคำนึงถึงผลที่จะตามมาของอัลกอริทึมด้วย โดยส่วนตัวฉันชอบที่จะตีความ 1 เพียงเพราะมันง่ายกว่า ดังนั้นฉันจึงใช้อัลกอริทึมในกระดาษ A3C ไม่ใช่หนังสือ Sutton และ Barto

คำถามของคุณเกี่ยวกับอัลกอริทึม REINFORCE แต่ฉันได้คุยเรื่องนักวิจารณ์ คุณมีปัญหาเดียวกันที่เกี่ยวข้องกับการตีความแกมม่าสองครั้งและแกมม่าพิเศษในการกรอกข้อมูลซ้ำ

— toto2
แหล่งที่มา