ตัวอย่างเช่นชื่อเรื่องของบทความนี้อ่าน: "Sample Actor-Critic with Replay Experience"
ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร
ตัวอย่างเช่นชื่อเรื่องของบทความนี้อ่าน: "Sample Actor-Critic with Replay Experience"
ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร
คำตอบ:
อัลกอริทึมเป็นตัวอย่างที่มีประสิทธิภาพถ้ามันสามารถได้รับประโยชน์สูงสุดจากทุกตัวอย่าง ลองนึกภาพการเรียนรู้ที่พยายามเรียนรู้วิธีการเล่น PONG เป็นครั้งแรก ในฐานะมนุษย์เราจะใช้เวลาไม่กี่วินาทีในการเรียนรู้วิธีเล่นเกมโดยใช้ตัวอย่างน้อยมาก สิ่งนี้ทำให้คุณ "มีประสิทธิภาพตัวอย่าง" มาก อัลกอริทึม RL โมเดิร์นจะต้องมีการดูข้อมูลพันครั้งมากกว่าที่คุณดังนั้นพวกเขาจะค่อนข้างตัวอย่างที่ไม่มีประสิทธิภาพ
ในกรณีของการเรียนรู้ออกนโยบายที่ไม่ได้ทุกตัวอย่างมีประโยชน์ในการที่พวกเขาไม่ได้เป็นส่วนหนึ่งของการจัดจำหน่ายที่เรามีความสนใจใน. การสุ่มตัวอย่างสำคัญเป็นเทคนิคในการกรองตัวอย่างเหล่านี้ การใช้งานดั้งเดิมคือการเข้าใจการแจกแจงหนึ่งขณะที่สามารถรับตัวอย่างจากการกระจายที่แตกต่างกัน แต่เกี่ยวข้องกัน ใน RL สิ่งนี้มักเกิดขึ้นเมื่อพยายามเรียนรู้นอกนโยบาย กล่าวคือตัวอย่างของคุณผลิตโดยนโยบายพฤติกรรมบางอย่าง แต่คุณต้องการเรียนรู้นโยบายเป้าหมาย ดังนั้นเราจำเป็นต้องวัดความสำคัญ / ความคล้ายคลึงของตัวอย่างที่สร้างขึ้นกับตัวอย่างที่นโยบายเป้าหมายอาจทำ ดังนั้นหนึ่งคือการสุ่มตัวอย่างจากการกระจายน้ำหนักที่โปรดปรานตัวอย่าง "สำคัญ" เหล่านี้ อย่างไรก็ตามมีวิธีการมากมายสำหรับการอธิบายลักษณะของสิ่งที่สำคัญและประสิทธิภาพของวิธีการนั้นอาจแตกต่างกันไปตามแอปพลิเคชัน
วิธีการทั่วไปในการสุ่มตัวอย่างความสำคัญนอกนโยบายนี้คือการหาอัตราส่วนว่ากลุ่มตัวอย่างมีแนวโน้มที่จะสร้างขึ้นได้อย่างไรโดยนโยบายเป้าหมาย บทความเกี่ยวกับการเชื่อมโยงระหว่างการสุ่มตัวอย่างความสำคัญและการไล่ระดับอัตราส่วนความน่าจะเป็นนโยบาย (2010) โดย Tang และ Abbeel ครอบคลุมหัวข้อนี้
ตัวอย่างประสิทธิภาพหมายถึงจำนวนประสบการณ์ที่เอเจนต์ / อัลกอริทึมจำเป็นต้องสร้างในสภาพแวดล้อม (เช่นจำนวนการกระทำที่ใช้และจำนวนสถานะที่เป็นผลลัพธ์ + รางวัลที่สังเกตได้) ระหว่างการฝึกอบรมเพื่อให้ถึงระดับประสิทธิภาพที่แน่นอน โดยสังหรณ์ใจคุณสามารถพูดได้ว่าอัลกอริทึมเป็นตัวอย่างที่มีประสิทธิภาพถ้ามันสามารถใช้ประโยชน์จากประสบการณ์ทุกชิ้นที่เกิดขึ้นเพื่อสร้างและปรับปรุงนโยบายอย่างรวดเร็ว อัลกอริทึมมีประสิทธิภาพตัวอย่างต่ำหากไม่สามารถเรียนรู้สิ่งที่มีประโยชน์จากตัวอย่างประสบการณ์จำนวนมากและไม่ได้ปรับปรุงอย่างรวดเร็ว
คำอธิบายของการสุ่มตัวอย่างที่สำคัญในคำตอบของ Jaden นั้นส่วนใหญ่แล้วถูกต้อง
ในบทความในคำถามของคุณการสุ่มตัวอย่างที่สำคัญเป็นหนึ่งในส่วนผสมที่ช่วยให้การรวมที่ถูกต้องของ 1) การเรียนรู้จากวิถีหลายขั้นตอนและ 2) ประสบการณ์การเล่นบัฟเฟอร์ซ้ำ ทั้งสองสิ่งนั้นไม่ใช่เรื่องง่ายที่จะรวมกันก่อนหน้านี้ (เพราะผลตอบแทนหลายขั้นตอนโดยไม่มีการสุ่มตัวอย่างสำคัญเท่านั้นที่ถูกต้องในการเรียนรู้นโยบายและตัวอย่างเก่าในบัฟเฟอร์การเล่นซ้ำถูกสร้างขึ้นโดยนโยบายเก่าซึ่งหมายความว่า ) ทั้งสองสิ่งเหล่านั้นปรับปรุงประสิทธิภาพของกลุ่มตัวอย่างอย่างเป็นเอกเทศซึ่งหมายความว่ามันยังมีประโยชน์สำหรับประสิทธิภาพของกลุ่มตัวอย่างหากพวกเขายังสามารถรวมกันได้
..finding a ratio of how likely a sample is to be generated by the target policy
เราจะตัดสินใจได้อย่างไรโดยที่เรารู้เพียงนโยบายพฤติกรรม? นโยบายเป้าหมายไม่ใช่สิ่งที่เราต้องค้นหาใช่ไหม