ทำความเข้าใจเกี่ยวกับบทบาทของปัจจัยส่วนลดในการเรียนรู้การเสริมแรง


43

ฉันสอนตัวเองเกี่ยวกับการเรียนรู้การเสริมแรงและพยายามทำความเข้าใจแนวคิดของรางวัลที่ได้รับส่วนลด ดังนั้นรางวัลจึงมีความจำเป็นที่จะต้องบอกระบบว่าคู่กรรมของรัฐนั้นดีและอะไรไม่ดี แต่สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมจึงจำเป็นต้องให้รางวัลส่วนลด เหตุใดจึงสำคัญว่ารัฐที่มีฐานะดีจะมาถึงในไม่ช้าแทนที่จะเป็นในภายหลังหรือไม่

ฉันเข้าใจว่านี่เกี่ยวข้องในบางกรณี ตัวอย่างเช่นหากคุณใช้การเรียนรู้การเสริมแรงเพื่อแลกเปลี่ยนในตลาดหุ้นมันจะมีประโยชน์มากขึ้นในการทำกำไรได้เร็วกว่าแทนที่จะทำภายหลัง นี่เป็นเพราะการมีเงินในตอนนี้ช่วยให้คุณสามารถทำสิ่งต่าง ๆ ด้วยเงินในตอนนี้ซึ่งเป็นที่ต้องการมากกว่าทำเงินด้วยเงินในภายหลัง

แต่ในกรณีส่วนใหญ่ฉันไม่เห็นว่าทำไมการลดราคาจึงมีประโยชน์ ตัวอย่างเช่นสมมติว่าคุณต้องการให้หุ่นยนต์เรียนรู้วิธีนำทางไปรอบ ๆ ห้องเพื่อไปถึงอีกด้านหนึ่งซึ่งมีบทลงโทษหากมันชนกับสิ่งกีดขวาง หากไม่มีปัจจัยส่วนลดแล้วมันจะเรียนรู้ที่จะไปถึงอีกด้านอย่างสมบูรณ์แบบโดยไม่ชนกับสิ่งกีดขวางใด ๆ อาจใช้เวลานานในการไปถึงที่นั่น แต่มันจะไปถึงที่นั่นในที่สุด

แต่ถ้าเรามอบส่วนลดให้กับรางวัลหุ่นยนต์จะได้รับการกระตุ้นให้ไปถึงอีกด้านหนึ่งของห้องได้อย่างรวดเร็วแม้ว่ามันจะต้องชนกับวัตถุตามทาง เห็นได้ชัดว่าไม่ใช่ผลลัพธ์ที่ต้องการ แน่นอนว่าคุณต้องการให้หุ่นยนต์ไปด้านอื่น ๆ อย่างรวดเร็ว แต่ไม่ใช่ถ้านี่หมายความว่ามันจะต้องชนกับวัตถุระหว่างทาง

ดังนั้นสัญชาตญาณของฉันคือปัจจัยรูปแบบส่วนลดใด ๆ ที่จริงจะนำไปสู่การแก้ปัญหาย่อยที่ดีที่สุด และตัวเลือกของตัวลดราคามักจะเป็นแบบสุ่ม - หลายวิธีที่ฉันได้เห็นเพียงตั้งค่าเป็น 0.9 สิ่งนี้ดูเหมือนจะไร้เดียงสามากสำหรับฉันและดูเหมือนจะเป็นการแลกเปลี่ยนโดยพลระหว่างวิธีการแก้ปัญหาที่เหมาะสมที่สุดและวิธีแก้ปัญหาที่เร็วที่สุด แต่ในความเป็นจริงการแลกเปลี่ยนนี้มีความสำคัญมาก

กรุณามีใครช่วยให้ฉันเข้าใจทั้งหมดนี้ไหม ขอขอบคุณ :)

คำตอบ:


36

TL; DR

ความจริงที่ว่าอัตราส่วนลดถูก จำกัด ให้มีขนาดเล็กกว่า 1 เป็นกลวิธีทางคณิตศาสตร์เพื่อสร้างผลรวมอนันต์ สิ่งนี้จะช่วยพิสูจน์การลู่เข้าของอัลกอริทึมบางอย่าง

ในทางปฏิบัติปัจจัยลดราคาสามารถใช้เป็นแบบจำลองความจริงที่ว่าผู้มีอำนาจตัดสินใจไม่แน่ใจว่าในการตัดสินใจครั้งต่อไปทันทีที่โลก (เช่นสภาพแวดล้อม / เกม / กระบวนการ ) กำลังจะสิ้นสุดลง

ตัวอย่างเช่น:

หากผู้มีอำนาจตัดสินใจเป็นหุ่นยนต์ตัวประกอบส่วนลดอาจเป็นความน่าจะเป็นที่หุ่นยนต์ถูกปิดในครั้งต่อไปทันที (โลกจะสิ้นสุดลงในคำศัพท์ก่อนหน้า) นั่นคือเหตุผลที่หุ่นยนต์มองเห็นสั้นและไม่ปรับรางวัลรวมให้เหมาะสม แต่เป็น รางวัลรวมที่ลดราคา

อัตราส่วนลดที่น้อยกว่า 1 (รายละเอียด)

เพื่อที่จะตอบได้อย่างแม่นยำยิ่งขึ้นเหตุใดอัตราคิดลดจึงต่ำกว่าหนึ่งฉันจะแนะนำกระบวนการตัดสินใจของมาร์คอฟ (MDPs) เป็นครั้งแรก

สามารถใช้เทคนิคการเรียนรู้การเสริมแรงเพื่อแก้ปัญหา MDP ได้ MDP จัดทำกรอบทางคณิตศาสตร์สำหรับการสร้างแบบจำลองสถานการณ์การตัดสินใจที่ผลลัพธ์เป็นส่วนหนึ่งแบบสุ่มและบางส่วนอยู่ภายใต้การควบคุมของผู้มีอำนาจตัดสินใจ MDP ถูกกำหนดผ่านพื้นที่ของรัฐ , พื้นที่ปฏิบัติการ , ฟังก์ชันของการเปลี่ยนแปลงความน่าจะเป็นระหว่างรัฐSA

ในการตั้งค่าพื้นฐานผู้มีอำนาจตัดสินใจใช้และดำเนินการและได้รับรางวัลจากสภาพแวดล้อมและสภาพแวดล้อมเปลี่ยนสถานะของมัน จากนั้นผู้ตัดสินใจจะรับรู้ถึงสภาพแวดล้อมดำเนินการรับรางวัลและอื่น ๆ การเปลี่ยนสถานะเป็นความน่าจะเป็นและขึ้นอยู่กับสถานะที่แท้จริงและการดำเนินการของผู้มีอำนาจตัดสินใจเท่านั้น รางวัลที่ได้รับจากผู้มีอำนาจตัดสินใจขึ้นอยู่กับการดำเนินการและทั้งในสภาพดั้งเดิมและสภาพแวดล้อมใหม่

รางวัลจะได้รับการดำเนินการเมื่อในรัฐและการเปลี่ยนแปลงสภาพแวดล้อม / ระบบรัฐหลังจากที่ตัดสินใจจะดำเนินการÄ_iผู้มีอำนาจตัดสินใจทำตามนโยบาย , สำหรับแต่ละรัฐดำเนินการA} เพื่อให้นโยบายเป็นสิ่งที่บอกผู้ตัดสินใจว่าจะดำเนินการอย่างไรในแต่ละรัฐ นโยบายอาจถูกสุ่มด้วยเช่นกัน แต่ตอนนี้ไม่สำคัญRai(sj,sk)aisjskaiπ π():SAsjSaiAπ

มีวัตถุประสงค์เพื่อค้นหานโยบายเช่นนั้นπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
ที่เป็นปัจจัยพิเศษ<1ββ<1

โปรดทราบว่าปัญหาการปรับให้เหมาะสมด้านบนมีช่วงเวลาที่ไม่มีที่สิ้นสุด ( ) และมีวัตถุประสงค์เพื่อเพิ่มผลตอบแทนรวมที่ได้รับ (รางวัลคูณด้วย ) นี้มักจะเรียกว่าเป็นปัญหา MDP กับขอบฟ้าลดเกณฑ์รางวัลที่ไม่มีที่สิ้นสุดTdiscountedRβn

ปัญหาที่เรียกว่าลดเพราะ<1 หากไม่ใช่ปัญหาที่มีส่วนลดผลรวมจะไม่มาบรรจบกัน นโยบายทั้งหมดที่ได้รับโดยเฉลี่ยแล้วจะได้รับรางวัลในเชิงบวกในแต่ละครั้งทันที จะเป็นเกณฑ์ผลตอบแทนรวมที่ไม่มีที่สิ้นสุดและไม่ใช่เกณฑ์การเพิ่มประสิทธิภาพที่ดีβ<1β=1

นี่คือตัวอย่างของเล่นที่แสดงให้คุณเห็นว่าฉันหมายถึงอะไร:

สมมติว่ามีเพียงสองการกระทำที่เป็นไปได้และฟังก์ชั่นการให้รางวัลเท่ากับหากและ ถ้า (รางวัลไม่ได้ขึ้นอยู่กับสถานะ)a=0,1R1a=10a=0

ก็เป็นที่ชัดเจนนโยบายที่ได้รับรางวัลมากขึ้นคือการใช้เวลาเสมอกระทำการกระทำและไม่เคย 0 ฉันจะเรียกนโยบายนี้ * ฉันจะเปรียบเทียบกับนโยบายอื่นที่ดำเนินการด้วยความน่าจะเป็นเล็กน้อยและอย่างอื่นa=1a=0πππa=1α<<1a=0

ในขอบฟ้าที่ไม่มีที่สิ้นสุดลดสมการเกณฑ์การให้รางวัล (1) กลายเป็น (ผลรวมของอนุกรมเรขาคณิต) สำหรับนโยบายในขณะที่สำหรับ สมการ (1) กลายเป็นเบต้า} ตั้งแต่ เราบอกว่าเป็นนโยบายที่ดีกว่า' ที่จริงเป็นนโยบายที่ดีที่สุด11βππα1β11β>α1βπππ

ในเกณฑ์ผลตอบแทนรวมไม่มีที่สิ้นสุด ( ) สมการ (1) ไม่ได้มาบรรจบกันกับนโยบายใด ๆ ของตำรวจ ดังนั้นในขณะที่นโยบายรับผลตอบแทนสูงกว่านโยบายทั้งสองจะเท่ากันตามเกณฑ์นี้ นั่นเป็นเหตุผลหนึ่งว่าทำไมเกณฑ์การให้รางวัลรวมของขอบฟ้าไร้ขีด จำกัด นั้นไม่มีประโยชน์β=1ππ

ดังที่ฉันได้กล่าวก่อนหน้านี้ทำให้กลอุบายในการสร้างผลรวมในสมการ (1) มาบรรจบกันβ<1

เกณฑ์การเพิ่มประสิทธิภาพอื่น ๆ

มีเกณฑ์การเพิ่มประสิทธิภาพอื่น ๆ ที่ไม่ได้กำหนดว่า :β<1

เกณฑ์ขอบเขตของขอบเขต จำกัดมีวัตถุประสงค์เพื่อเพิ่มรางวัลสุดพิเศษจนกระทั่งถึงช่วงเวลาT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

สำหรับและแน่นอนβ1T

ในเกณฑ์รางวัลเฉลี่ยขอบฟ้าไม่มีที่สิ้นสุดวัตถุประสงค์คือ

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

จบหมายเหตุ

ขึ้นอยู่กับเกณฑ์การปรับให้เหมาะสมเราจะใช้อัลกอริทึมที่แตกต่างเพื่อค้นหานโยบายที่เหมาะสมที่สุด สำหรับกรณีนโยบายที่ดีที่สุดของปัญหาขอบฟ้าจะขึ้นอยู่กับทั้งรัฐและเวลาจริงทันที อัลกอริธึมการเรียนรู้การเสริมแรงส่วนใหญ่ (เช่น SARSA หรือ Q-learning) มาบรรจบกันเป็นนโยบายที่ดีที่สุดสำหรับเกณฑ์ลดขอบฟ้าที่ไม่มีที่สิ้นสุด (เช่นเดียวกับอัลกอริธึมการเขียนโปรแกรมแบบไดนามิก) สำหรับเกณฑ์รางวัลเฉลี่ยนั้นไม่มีอัลกอริทึมที่แสดงให้เห็นว่ามาบรรจบกับนโยบายที่ดีที่สุดอย่างไรก็ตามเราสามารถใช้การเรียนรู้แบบ R ซึ่งมีประสิทธิภาพที่ดีแม้ว่าจะไม่ได้มาบรรจบกันทางทฤษฎีที่ดี


1
มีความคิดเกี่ยวกับสิ่งที่ฉันควรอ่านเพื่อทำความเข้าใจภาษาจีนทั้งหมดในคำตอบของคุณ?
thibaut โนอาห์

@thibautnoah นี่คือ IMHO การอ้างอิงเสริมการเรียนรู้ที่ดีที่สุด: การแนะนำจาก Sutton และ Barto [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

ขอบคุณเพื่อนอาจจะต้องมีหนังสืออีกเล่มเกี่ยวกับคณิตศาสตร์ แต่ฉันเดาว่ามันเป็นจุดเริ่มต้น;)
thibaut โนอาห์

6

คุณพูดถูกว่าส่วนลดปัจจัย (เรียกว่า - โปรดทราบว่าสิ่งนี้แตกต่างจากจาก TD- ) ทำหน้าที่เหมือน "เร่งด่วนของชีวิต" และเป็นส่วนหนึ่งของปัญหา - เช่นเดียวกับที่อยู่ใน ชีวิตมนุษย์: บางคนใช้ชีวิตราวกับว่าพวกเขาจะมีชีวิตอยู่ตลอดไป; บางคนใช้ชีวิตราวกับว่าพวกเขากำลังจะตายในวันพรุ่งนี้γλλ


1

TL; DR:ปัจจัยที่มีส่วนลดเกี่ยวข้องกับขอบเขตเวลา ขอบเขตเวลาที่ยาวนานขึ้นมีความแปรปรวนมากขึ้นเนื่องจากมีข้อมูลที่ไม่เกี่ยวข้องมากขึ้นในขณะที่ขอบเขตระยะเวลาสั้น ๆ นั้นมีอคติต่อการได้รับผลประโยชน์ระยะสั้นเท่านั้น

ปัจจัยลดราคาเป็นตัวกำหนดว่าตัวแทนการเรียนรู้การสนับสนุนเป็นห่วงเกี่ยวกับผลตอบแทนในอนาคตอันไกลเมื่อเทียบกับในอนาคตอันใกล้ ถ้าเอเจนต์จะเป็นสายตาสั้นและเรียนรู้เกี่ยวกับการกระทำที่ให้รางวัลทันที ถ้าเอเจนต์จะประเมินการกระทำแต่ละอย่างของมันตามจำนวนรวมของรางวัลในอนาคตทั้งหมดγ=0γ=1

ดังนั้นทำไมคุณไม่ต้องการทำให้สูงที่สุดเท่าที่จะทำได้เสมอไป? การกระทำส่วนใหญ่ไม่มีผลกระทบยาวนาน ตัวอย่างเช่นสมมติว่าในวันแรกของทุกเดือนคุณตัดสินใจที่จะปฏิบัติตัวเองกับสมูทตี้และคุณต้องตัดสินใจว่าคุณจะได้รับบลูเบอร์รี่สมูทตี้หรือสมูทตี้สตรอเบอร์รี่ ในฐานะที่เป็นผู้เรียนรู้การเสริมแรงที่ดีคุณจะตัดสินคุณภาพของการตัดสินใจของคุณด้วยรางวัลใหญ่ที่ตามมาของคุณ หากระยะเวลาของคุณสั้นมากคุณจะคำนึงถึงผลตอบแทนทันทีเช่นสมูตตี้ของคุณอร่อยแค่ไหน ด้วยระยะเวลาที่นานขึ้นเช่นไม่กี่ชั่วโมงคุณอาจคำนึงถึงสิ่งต่าง ๆ ไม่ว่าคุณจะปวดท้องหรือไม่ก็ตาม แต่ถ้าขอบฟ้าเวลาของคุณคงอยู่ตลอดทั้งเดือนทุกสิ่งที่ทำให้คุณรู้สึกดีหรือไม่ดีตลอดทั้งเดือนγจะคำนึงถึงการตัดสินใจของคุณหรือไม่ว่าคุณได้ตัดสินใจปั่นอย่างถูกต้องหรือไม่ คุณจะได้รับข้อมูลที่ไม่เกี่ยวข้องจำนวนมากดังนั้นการตัดสินใจของคุณจะมีความแปรปรวนอย่างมากและเป็นการยากที่จะเรียนรู้

การเลือกค่าเฉพาะของเทียบเท่ากับการเลือกช่วงเวลา ช่วยในการเขียนรางวัลลดตัวแทนของเป็น ที่ฉันระบุและT ค่าแสดงขอบเขตเวลาที่เกี่ยวข้องกับปัจจัยส่วนลดอย่างชัดเจน สอดคล้องกับและรางวัลใด ๆ ที่มากกว่าγG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τขั้นตอนเวลาในอนาคตจะถูกระงับการชี้แจง โดยทั่วไปคุณควรเลือกปัจจัยลดราคาเพื่อให้ช่วงเวลานั้นมีรางวัลที่เกี่ยวข้องทั้งหมดสำหรับการกระทำบางอย่าง แต่ไม่มากไปกว่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.