TL; DR
ความจริงที่ว่าอัตราส่วนลดถูก จำกัด ให้มีขนาดเล็กกว่า 1 เป็นกลวิธีทางคณิตศาสตร์เพื่อสร้างผลรวมอนันต์ สิ่งนี้จะช่วยพิสูจน์การลู่เข้าของอัลกอริทึมบางอย่าง
ในทางปฏิบัติปัจจัยลดราคาสามารถใช้เป็นแบบจำลองความจริงที่ว่าผู้มีอำนาจตัดสินใจไม่แน่ใจว่าในการตัดสินใจครั้งต่อไปทันทีที่โลก (เช่นสภาพแวดล้อม / เกม / กระบวนการ ) กำลังจะสิ้นสุดลง
ตัวอย่างเช่น:
หากผู้มีอำนาจตัดสินใจเป็นหุ่นยนต์ตัวประกอบส่วนลดอาจเป็นความน่าจะเป็นที่หุ่นยนต์ถูกปิดในครั้งต่อไปทันที (โลกจะสิ้นสุดลงในคำศัพท์ก่อนหน้า) นั่นคือเหตุผลที่หุ่นยนต์มองเห็นสั้นและไม่ปรับรางวัลรวมให้เหมาะสม แต่เป็น
รางวัลรวมที่ลดราคา
อัตราส่วนลดที่น้อยกว่า 1 (รายละเอียด)
เพื่อที่จะตอบได้อย่างแม่นยำยิ่งขึ้นเหตุใดอัตราคิดลดจึงต่ำกว่าหนึ่งฉันจะแนะนำกระบวนการตัดสินใจของมาร์คอฟ (MDPs) เป็นครั้งแรก
สามารถใช้เทคนิคการเรียนรู้การเสริมแรงเพื่อแก้ปัญหา MDP ได้ MDP จัดทำกรอบทางคณิตศาสตร์สำหรับการสร้างแบบจำลองสถานการณ์การตัดสินใจที่ผลลัพธ์เป็นส่วนหนึ่งแบบสุ่มและบางส่วนอยู่ภายใต้การควบคุมของผู้มีอำนาจตัดสินใจ MDP ถูกกำหนดผ่านพื้นที่ของรัฐ , พื้นที่ปฏิบัติการ , ฟังก์ชันของการเปลี่ยนแปลงความน่าจะเป็นระหว่างรัฐSA
ในการตั้งค่าพื้นฐานผู้มีอำนาจตัดสินใจใช้และดำเนินการและได้รับรางวัลจากสภาพแวดล้อมและสภาพแวดล้อมเปลี่ยนสถานะของมัน จากนั้นผู้ตัดสินใจจะรับรู้ถึงสภาพแวดล้อมดำเนินการรับรางวัลและอื่น ๆ การเปลี่ยนสถานะเป็นความน่าจะเป็นและขึ้นอยู่กับสถานะที่แท้จริงและการดำเนินการของผู้มีอำนาจตัดสินใจเท่านั้น รางวัลที่ได้รับจากผู้มีอำนาจตัดสินใจขึ้นอยู่กับการดำเนินการและทั้งในสภาพดั้งเดิมและสภาพแวดล้อมใหม่
รางวัลจะได้รับการดำเนินการเมื่อในรัฐและการเปลี่ยนแปลงสภาพแวดล้อม / ระบบรัฐหลังจากที่ตัดสินใจจะดำเนินการÄ_iผู้มีอำนาจตัดสินใจทำตามนโยบาย , สำหรับแต่ละรัฐดำเนินการA} เพื่อให้นโยบายเป็นสิ่งที่บอกผู้ตัดสินใจว่าจะดำเนินการอย่างไรในแต่ละรัฐ นโยบายอาจถูกสุ่มด้วยเช่นกัน แต่ตอนนี้ไม่สำคัญRai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
มีวัตถุประสงค์เพื่อค้นหานโยบายเช่นนั้นπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
ที่เป็นปัจจัยพิเศษ<1ββ<1
โปรดทราบว่าปัญหาการปรับให้เหมาะสมด้านบนมีช่วงเวลาที่ไม่มีที่สิ้นสุด ( ) และมีวัตถุประสงค์เพื่อเพิ่มผลตอบแทนรวมที่ได้รับ (รางวัลคูณด้วย ) นี้มักจะเรียกว่าเป็นปัญหา MDP กับขอบฟ้าลดเกณฑ์รางวัลที่ไม่มีที่สิ้นสุดT→∞discountedRβn
ปัญหาที่เรียกว่าลดเพราะ<1 หากไม่ใช่ปัญหาที่มีส่วนลดผลรวมจะไม่มาบรรจบกัน นโยบายทั้งหมดที่ได้รับโดยเฉลี่ยแล้วจะได้รับรางวัลในเชิงบวกในแต่ละครั้งทันที จะเป็นเกณฑ์ผลตอบแทนรวมที่ไม่มีที่สิ้นสุดและไม่ใช่เกณฑ์การเพิ่มประสิทธิภาพที่ดีβ<1β=1
นี่คือตัวอย่างของเล่นที่แสดงให้คุณเห็นว่าฉันหมายถึงอะไร:
สมมติว่ามีเพียงสองการกระทำที่เป็นไปได้และฟังก์ชั่นการให้รางวัลเท่ากับหากและ ถ้า (รางวัลไม่ได้ขึ้นอยู่กับสถานะ)a=0,1R1a=10a=0
ก็เป็นที่ชัดเจนนโยบายที่ได้รับรางวัลมากขึ้นคือการใช้เวลาเสมอกระทำการกระทำและไม่เคย 0 ฉันจะเรียกนโยบายนี้ * ฉันจะเปรียบเทียบกับนโยบายอื่นที่ดำเนินการด้วยความน่าจะเป็นเล็กน้อยและอย่างอื่นa=1a=0π∗π∗π′a=1α<<1a=0
ในขอบฟ้าที่ไม่มีที่สิ้นสุดลดสมการเกณฑ์การให้รางวัล (1) กลายเป็น (ผลรวมของอนุกรมเรขาคณิต) สำหรับนโยบายในขณะที่สำหรับ สมการ (1) กลายเป็นเบต้า} ตั้งแต่ เราบอกว่าเป็นนโยบายที่ดีกว่า' ที่จริงเป็นนโยบายที่ดีที่สุด11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
ในเกณฑ์ผลตอบแทนรวมไม่มีที่สิ้นสุด ( ) สมการ (1) ไม่ได้มาบรรจบกันกับนโยบายใด ๆ ของตำรวจ ดังนั้นในขณะที่นโยบายรับผลตอบแทนสูงกว่านโยบายทั้งสองจะเท่ากันตามเกณฑ์นี้ นั่นเป็นเหตุผลหนึ่งว่าทำไมเกณฑ์การให้รางวัลรวมของขอบฟ้าไร้ขีด จำกัด นั้นไม่มีประโยชน์β=1ππ′
ดังที่ฉันได้กล่าวก่อนหน้านี้ทำให้กลอุบายในการสร้างผลรวมในสมการ (1) มาบรรจบกันβ<1
เกณฑ์การเพิ่มประสิทธิภาพอื่น ๆ
มีเกณฑ์การเพิ่มประสิทธิภาพอื่น ๆ ที่ไม่ได้กำหนดว่า :β<1
เกณฑ์ขอบเขตของขอบเขต จำกัดมีวัตถุประสงค์เพื่อเพิ่มรางวัลสุดพิเศษจนกระทั่งถึงช่วงเวลาT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
สำหรับและแน่นอนβ≤1T
ในเกณฑ์รางวัลเฉลี่ยขอบฟ้าไม่มีที่สิ้นสุดวัตถุประสงค์คือ
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
จบหมายเหตุ
ขึ้นอยู่กับเกณฑ์การปรับให้เหมาะสมเราจะใช้อัลกอริทึมที่แตกต่างเพื่อค้นหานโยบายที่เหมาะสมที่สุด สำหรับกรณีนโยบายที่ดีที่สุดของปัญหาขอบฟ้าจะขึ้นอยู่กับทั้งรัฐและเวลาจริงทันที อัลกอริธึมการเรียนรู้การเสริมแรงส่วนใหญ่ (เช่น SARSA หรือ Q-learning) มาบรรจบกันเป็นนโยบายที่ดีที่สุดสำหรับเกณฑ์ลดขอบฟ้าที่ไม่มีที่สิ้นสุด (เช่นเดียวกับอัลกอริธึมการเขียนโปรแกรมแบบไดนามิก) สำหรับเกณฑ์รางวัลเฉลี่ยนั้นไม่มีอัลกอริทึมที่แสดงให้เห็นว่ามาบรรจบกับนโยบายที่ดีที่สุดอย่างไรก็ตามเราสามารถใช้การเรียนรู้แบบ R ซึ่งมีประสิทธิภาพที่ดีแม้ว่าจะไม่ได้มาบรรจบกันทางทฤษฎีที่ดี