ทำความเข้าใจเกี่ยวกับบทบาทของปัจจัยส่วนลดในการเรียนรู้การเสริมแรง
ฉันสอนตัวเองเกี่ยวกับการเรียนรู้การเสริมแรงและพยายามทำความเข้าใจแนวคิดของรางวัลที่ได้รับส่วนลด ดังนั้นรางวัลจึงมีความจำเป็นที่จะต้องบอกระบบว่าคู่กรรมของรัฐนั้นดีและอะไรไม่ดี แต่สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมจึงจำเป็นต้องให้รางวัลส่วนลด เหตุใดจึงสำคัญว่ารัฐที่มีฐานะดีจะมาถึงในไม่ช้าแทนที่จะเป็นในภายหลังหรือไม่ ฉันเข้าใจว่านี่เกี่ยวข้องในบางกรณี ตัวอย่างเช่นหากคุณใช้การเรียนรู้การเสริมแรงเพื่อแลกเปลี่ยนในตลาดหุ้นมันจะมีประโยชน์มากขึ้นในการทำกำไรได้เร็วกว่าแทนที่จะทำภายหลัง นี่เป็นเพราะการมีเงินในตอนนี้ช่วยให้คุณสามารถทำสิ่งต่าง ๆ ด้วยเงินในตอนนี้ซึ่งเป็นที่ต้องการมากกว่าทำเงินด้วยเงินในภายหลัง แต่ในกรณีส่วนใหญ่ฉันไม่เห็นว่าทำไมการลดราคาจึงมีประโยชน์ ตัวอย่างเช่นสมมติว่าคุณต้องการให้หุ่นยนต์เรียนรู้วิธีนำทางไปรอบ ๆ ห้องเพื่อไปถึงอีกด้านหนึ่งซึ่งมีบทลงโทษหากมันชนกับสิ่งกีดขวาง หากไม่มีปัจจัยส่วนลดแล้วมันจะเรียนรู้ที่จะไปถึงอีกด้านอย่างสมบูรณ์แบบโดยไม่ชนกับสิ่งกีดขวางใด ๆ อาจใช้เวลานานในการไปถึงที่นั่น แต่มันจะไปถึงที่นั่นในที่สุด แต่ถ้าเรามอบส่วนลดให้กับรางวัลหุ่นยนต์จะได้รับการกระตุ้นให้ไปถึงอีกด้านหนึ่งของห้องได้อย่างรวดเร็วแม้ว่ามันจะต้องชนกับวัตถุตามทาง เห็นได้ชัดว่าไม่ใช่ผลลัพธ์ที่ต้องการ แน่นอนว่าคุณต้องการให้หุ่นยนต์ไปด้านอื่น ๆ อย่างรวดเร็ว แต่ไม่ใช่ถ้านี่หมายความว่ามันจะต้องชนกับวัตถุระหว่างทาง ดังนั้นสัญชาตญาณของฉันคือปัจจัยรูปแบบส่วนลดใด ๆ ที่จริงจะนำไปสู่การแก้ปัญหาย่อยที่ดีที่สุด และตัวเลือกของตัวลดราคามักจะเป็นแบบสุ่ม - หลายวิธีที่ฉันได้เห็นเพียงตั้งค่าเป็น 0.9 สิ่งนี้ดูเหมือนจะไร้เดียงสามากสำหรับฉันและดูเหมือนจะเป็นการแลกเปลี่ยนโดยพลระหว่างวิธีการแก้ปัญหาที่เหมาะสมที่สุดและวิธีแก้ปัญหาที่เร็วที่สุด แต่ในความเป็นจริงการแลกเปลี่ยนนี้มีความสำคัญมาก กรุณามีใครช่วยให้ฉันเข้าใจทั้งหมดนี้ไหม ขอขอบคุณ :)