ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร


14

ตัวอย่างเช่นชื่อเรื่องของบทความนี้อ่าน: "Sample Actor-Critic with Replay Experience"

ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร

คำตอบ:


14

อัลกอริทึมเป็นตัวอย่างที่มีประสิทธิภาพถ้ามันสามารถได้รับประโยชน์สูงสุดจากทุกตัวอย่าง ลองนึกภาพการเรียนรู้ที่พยายามเรียนรู้วิธีการเล่น PONG เป็นครั้งแรก ในฐานะมนุษย์เราจะใช้เวลาไม่กี่วินาทีในการเรียนรู้วิธีเล่นเกมโดยใช้ตัวอย่างน้อยมาก สิ่งนี้ทำให้คุณ "มีประสิทธิภาพตัวอย่าง" มาก อัลกอริทึม RL โมเดิร์นจะต้องมีการดูข้อมูลพันครั้งมากกว่าที่คุณดังนั้นพวกเขาจะค่อนข้างตัวอย่างที่ไม่มีประสิทธิภาพ100

ในกรณีของการเรียนรู้ออกนโยบายที่ไม่ได้ทุกตัวอย่างมีประโยชน์ในการที่พวกเขาไม่ได้เป็นส่วนหนึ่งของการจัดจำหน่ายที่เรามีความสนใจใน. การสุ่มตัวอย่างสำคัญเป็นเทคนิคในการกรองตัวอย่างเหล่านี้ การใช้งานดั้งเดิมคือการเข้าใจการแจกแจงหนึ่งขณะที่สามารถรับตัวอย่างจากการกระจายที่แตกต่างกัน แต่เกี่ยวข้องกัน ใน RL สิ่งนี้มักเกิดขึ้นเมื่อพยายามเรียนรู้นอกนโยบาย กล่าวคือตัวอย่างของคุณผลิตโดยนโยบายพฤติกรรมบางอย่าง แต่คุณต้องการเรียนรู้นโยบายเป้าหมาย ดังนั้นเราจำเป็นต้องวัดความสำคัญ / ความคล้ายคลึงของตัวอย่างที่สร้างขึ้นกับตัวอย่างที่นโยบายเป้าหมายอาจทำ ดังนั้นหนึ่งคือการสุ่มตัวอย่างจากการกระจายน้ำหนักที่โปรดปรานตัวอย่าง "สำคัญ" เหล่านี้ อย่างไรก็ตามมีวิธีการมากมายสำหรับการอธิบายลักษณะของสิ่งที่สำคัญและประสิทธิภาพของวิธีการนั้นอาจแตกต่างกันไปตามแอปพลิเคชัน

วิธีการทั่วไปในการสุ่มตัวอย่างความสำคัญนอกนโยบายนี้คือการหาอัตราส่วนว่ากลุ่มตัวอย่างมีแนวโน้มที่จะสร้างขึ้นได้อย่างไรโดยนโยบายเป้าหมาย บทความเกี่ยวกับการเชื่อมโยงระหว่างการสุ่มตัวอย่างความสำคัญและการไล่ระดับอัตราส่วนความน่าจะเป็นนโยบาย (2010) โดย Tang และ Abbeel ครอบคลุมหัวข้อนี้


2
ขอบคุณอีกครั้ง. คำถามพื้นฐาน: ..finding a ratio of how likely a sample is to be generated by the target policyเราจะตัดสินใจได้อย่างไรโดยที่เรารู้เพียงนโยบายพฤติกรรม? นโยบายเป้าหมายไม่ใช่สิ่งที่เราต้องค้นหาใช่ไหม
Gokul NC

1
เราสามารถประมาณค่าของสิ่งนี้ได้อย่างง่ายดายโดยการหาอัตราส่วนของนโยบายเป้าหมาย, pi, การกระทำนั้นกับข้อพฤติกรรมนโยบาย, mu ดังนั้นอัตราส่วนคือ P = pi (s, a) / mu (s, a) โดยที่ a และ s เป็นการกระทำที่เลือกโดย mu และสถานะตามลำดับ
Jaden Travnik

1
คำถามของฉันคือเราจะได้รับ pi (s, a) จากที่ใดในขณะที่เรามี mu (s, a) เท่านั้น? นั่นคือเราจะได้รับนโยบายเป้าหมายจากที่ใดในขณะที่เป็นเป้าหมายของเราในการค้นหา
Gokul NC

1
นโยบายเป้าหมายของคุณเริ่มต้นเป็นแบบสุ่มมันเป็นเพียงเรื่องของการอัปเดต
Jaden Travnik

5

ตัวอย่างประสิทธิภาพหมายถึงจำนวนประสบการณ์ที่เอเจนต์ / อัลกอริทึมจำเป็นต้องสร้างในสภาพแวดล้อม (เช่นจำนวนการกระทำที่ใช้และจำนวนสถานะที่เป็นผลลัพธ์ + รางวัลที่สังเกตได้) ระหว่างการฝึกอบรมเพื่อให้ถึงระดับประสิทธิภาพที่แน่นอน โดยสังหรณ์ใจคุณสามารถพูดได้ว่าอัลกอริทึมเป็นตัวอย่างที่มีประสิทธิภาพถ้ามันสามารถใช้ประโยชน์จากประสบการณ์ทุกชิ้นที่เกิดขึ้นเพื่อสร้างและปรับปรุงนโยบายอย่างรวดเร็ว อัลกอริทึมมีประสิทธิภาพตัวอย่างต่ำหากไม่สามารถเรียนรู้สิ่งที่มีประโยชน์จากตัวอย่างประสบการณ์จำนวนมากและไม่ได้ปรับปรุงอย่างรวดเร็ว

คำอธิบายของการสุ่มตัวอย่างที่สำคัญในคำตอบของ Jaden นั้นส่วนใหญ่แล้วถูกต้อง

ในบทความในคำถามของคุณการสุ่มตัวอย่างที่สำคัญเป็นหนึ่งในส่วนผสมที่ช่วยให้การรวมที่ถูกต้องของ 1) การเรียนรู้จากวิถีหลายขั้นตอนและ 2) ประสบการณ์การเล่นบัฟเฟอร์ซ้ำ ทั้งสองสิ่งนั้นไม่ใช่เรื่องง่ายที่จะรวมกันก่อนหน้านี้ (เพราะผลตอบแทนหลายขั้นตอนโดยไม่มีการสุ่มตัวอย่างสำคัญเท่านั้นที่ถูกต้องในการเรียนรู้นโยบายและตัวอย่างเก่าในบัฟเฟอร์การเล่นซ้ำถูกสร้างขึ้นโดยนโยบายเก่าซึ่งหมายความว่า ) ทั้งสองสิ่งเหล่านั้นปรับปรุงประสิทธิภาพของกลุ่มตัวอย่างอย่างเป็นเอกเทศซึ่งหมายความว่ามันยังมีประโยชน์สำหรับประสิทธิภาพของกลุ่มตัวอย่างหากพวกเขายังสามารถรวมกันได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.