ทำไมอัตราคิดลดในอัลกอริทึม REINFORCE ปรากฏสองครั้ง


11

ฉันกำลังอ่านหนังสือเสริมการเรียนรู้: บทนำโดย Richard S. Sutton และ Andrew G. Barto (ฉบับร่างสมบูรณ์, 5 พฤศจิกายน 2017)

บนหน้า 271 รหัสหลอกสำหรับวิธีการนโยบายไล่ระดับสี Monte-Carlo หลักการจะแสดง ดูโค้ดหลอกนี้ฉันไม่เข้าใจว่าทำไมมันดูเหมือนว่าอัตราส่วนลดปรากฏขึ้น 2 ครั้งหนึ่งครั้งในสถานะอัพเดตและครั้งที่สองภายในผลตอบแทน [ดูรูปด้านล่าง]

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนว่าการคืนค่าสำหรับขั้นตอนหลังจากขั้นตอนที่ 1 เป็นเพียงการตัดทอนการคืนค่าของขั้นตอนแรก นอกจากนี้หากคุณดูเพียงหนึ่งหน้าข้างบนในหนังสือคุณจะพบสมการที่มีอัตราส่วนลดเพียง 1 รายการ (หนึ่งในผลตอบแทน)

ทำไมรหัสเทียมดูไม่เหมือนกัน? ฉันเดาว่าฉันเข้าใจผิดบางสิ่ง:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

คำตอบ:


5

ตัวคูณส่วนลดจะปรากฏขึ้นสองครั้งและสิ่งนี้ถูกต้อง

นี่เป็นเพราะฟังก์ชั่นที่คุณพยายามที่จะเพิ่มสูงสุดในการป้องกันสำหรับปัญหาตอน (โดยการไล่ระดับสี) เป็นผลตอบแทนที่คาดหวังจากสถานะเริ่มต้นที่กำหนด (การกระจาย)

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

ดังนั้นในตอนนี้เมื่อคุณสุ่มตัวอย่างผลตอบแทน , G 2 และอื่น ๆ สิ่งเหล่านี้จะเกี่ยวข้องกับปัญหาที่คุณกำลังแก้ไขน้อยลงโดยปัจจัยส่วนลดเป็นครั้งที่สองตามที่คุณบันทึกไว้ ที่รุนแรงกับปัญหาหลักการและγ = 0G1G2γ=0จากนั้น REINFORCE จะค้นหานโยบายที่ดีที่สุดสำหรับการกระทำแรกเท่านั้น

ขั้นตอนวิธีการอื่น ๆ ในการทำงานว่าในปัญหาที่เกิดขึ้นอย่างต่อเนื่องเช่นการใช้นักแสดงนักวิจารณ์สูตรที่แตกต่างสำหรับจึงไม่ได้มีปัจจัยที่γทีJ(θ)γt


5

คำตอบของนีลแล้วให้สัญชาตญาณบางอย่างว่าทำไม pseudocode (มีพิเศษยาว) มีความถูกต้องγt

ฉันแค่อยากจะอธิบายเพิ่มเติมว่าคุณดูเหมือนจะไม่เข้าใจอะไรเลยสมการ (13.6) ในหนังสือเล่มนี้แตกต่างจากนามแฝงจริง

ตอนนี้ฉันไม่มีหนังสือฉบับที่คุณพูดถึงที่นี่ แต่ฉันมีฉบับร่างภายหลังในวันที่ 22 มีนาคม 2018 และข้อความในหัวข้อเฉพาะนี้ดูเหมือนจะคล้ายกัน ในฉบับนี้:

  • ใกล้ถึงจุดสิ้นสุดของหน้า 326 มีการกล่าวถึงอย่างชัดเจนว่าพวกเขาจะถือว่าγ=1ในบทพิสูจน์สำหรับทฤษฎีบทการไล่ระดับสีของนโยบาย
  • การพิสูจน์นั้นในที่สุดนำไปสู่สมการเดียวกัน (13.6) ในหน้า 329
  • ทันทีด้านล่าง pseudocode บนหน้า 330, พวกเขาเป็นจริงที่อยู่ในเวลาสั้น ๆ ความแตกต่างระหว่างสมและ pseudocode ที่บอกว่าความแตกต่างที่เกิดจากการสันนิษฐานของในหลักฐานγ=1
  • γ<1

2
ขอบคุณ คำอธิบายจุดที่สามของคุณหายไปจากร่าง 2017
Diego Orellana

2
@DiegoOrellana ฉันไม่สามารถหาลิงค์ไปยัง 22 มีนาคมร่างอีกต่อไป, มีปรากฏเป็นร่างแม้ต่อมา (ไม่สามารถหาวันกล่าวถึง) ที่นี่ รุ่นนี้มีปกที่แฟนซีดังนั้นอาจเป็นรุ่นสุดท้ายแทนที่จะเป็นร่าง หากลิงก์ไม่ได้รับการหักในอนาคตผมสงสัยว่าการเชื่อมโยงใหม่จะให้บริการที่นี่
เดนนิส Soemers

3

มันเป็นปัญหาที่ลึกซึ้ง

หากคุณดูอัลกอริทึม A3C ในเอกสารต้นฉบับ (p.4 และภาคผนวก S3 สำหรับรหัสหลอก) อัลกอริทึมนักวิจารณ์นักแสดงของพวกเขา (อัลกอริทึมเดียวกันปัญหาทั้งฉากและการศึกษาต่อเนื่อง) ถูกปิดโดยปัจจัยของแกมม่าที่สัมพันธ์กับนักแสดง - นักวิจารณ์หลอกรหัสสำหรับปัญหาตอนในหนังสือ Sutton และ Barto (p.332 ของเดือนมกราคม 2019 ฉบับhttp://incompleteideas.net/book/the-book.html ) หนังสือ Sutton and Barto มีแกมม่า "แรก" พิเศษตามที่ระบุไว้ในรูปภาพของคุณ ดังนั้นไม่ว่าจะเป็นหนังสือหรือกระดาษ A3C ไม่ได้จริงๆ

กุญแจอยู่บนหน้า 199 ของหนังสือ Sutton และ Barto:

หากมีการลดราคา (แกมม่า <1) ควรได้รับการพิจารณาว่าเป็นรูปแบบของการยุติซึ่งสามารถทำได้ง่ายๆโดยการรวมปัจจัยในระยะที่สองของ (9.2)

ประเด็นที่ลึกซึ้งคือการตีความแกมม่าปัจจัยลดราคาสองแบบ:

  1. ปัจจัยหลายตัวที่ทำให้น้ำหนักน้อยลงสำหรับรางวัลในอนาคตที่ห่างไกล
  2. ความน่าจะเป็นที่ 1 - แกมม่าที่วิถีการจำลองแบบลวก ๆ ยุติในเวลาใดก็ได้ การตีความนี้มีเหตุผลสำหรับกรณีที่เป็นกรณี ๆ เท่านั้นและไม่ใช่กรณีต่อเนื่อง

การใช้งานตามตัวอักษร:

  1. เพียงแค่คูณรางวัลในอนาคตและปริมาณที่เกี่ยวข้อง (V หรือ Q) ในอนาคตด้วยแกมม่า
  2. จำลองวิถีบางอย่างและสุ่มยุติ (1 - แกมม่า) ของพวกเขาในแต่ละขั้นตอน วิถีที่สิ้นสุดจะไม่ให้ผลตอบแทนทันทีหรือในอนาคต

Glnπ(a|s)

γ2Glnπ(a|s)0.81Glnπ(a|s)

Glnπ(a|s)G

คุณสามารถเลือกการตีความแกมม่าใดก็ได้ แต่คุณต้องคำนึงถึงผลที่จะตามมาของอัลกอริทึมด้วย โดยส่วนตัวฉันชอบที่จะตีความ 1 เพียงเพราะมันง่ายกว่า ดังนั้นฉันจึงใช้อัลกอริทึมในกระดาษ A3C ไม่ใช่หนังสือ Sutton และ Barto

คำถามของคุณเกี่ยวกับอัลกอริทึม REINFORCE แต่ฉันได้คุยเรื่องนักวิจารณ์ คุณมีปัญหาเดียวกันที่เกี่ยวข้องกับการตีความแกมม่าสองครั้งและแกมม่าพิเศษในการกรอกข้อมูลซ้ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.