อะไรคือความแตกต่างระหว่างการเรียนรู้นอกระบบกับการเรียนรู้นอกห้องเรียน?


78

เว็บไซต์ปัญญาประดิษฐ์กำหนดการเรียนรู้นอกห้องเรียนและนอกนโยบายดังนี้

"ผู้เรียนนอกนโยบายเรียนรู้คุณค่าของนโยบายที่ดีที่สุดโดยไม่ขึ้นกับการกระทำของตัวแทน Q-learning เป็นผู้เรียนนอกนโยบายผู้เรียนตามนโยบายจะได้เรียนรู้คุณค่าของนโยบายที่ดำเนินการโดยตัวแทนรวมถึงขั้นตอนการสำรวจ ."

ฉันต้องการขอคำชี้แจงของคุณเกี่ยวกับเรื่องนี้เพราะพวกเขาดูเหมือนจะไม่สร้างความแตกต่างให้ฉัน คำจำกัดความทั้งสองดูเหมือนว่าเหมือนกัน สิ่งที่ฉันเข้าใจจริง ๆ คือการเรียนรู้โดยใช้แบบจำลองและแบบจำลองและฉันไม่รู้ว่าพวกเขามีส่วนเกี่ยวข้องกับสิ่งที่สงสัยหรือไม่

เป็นไปได้อย่างไรที่นโยบายที่ดีที่สุดจะได้รับการเรียนรู้อย่างอิสระจากการกระทำของตัวแทน นโยบายไม่ได้เรียนรู้เมื่อตัวแทนดำเนินการหรือไม่


1
ฉันเพิ่มความคิดเห็นไปที่stackoverflow.com/questions/6848828/…ส่วนTL; NRอาจมีประโยชน์สำหรับความเข้าใจเช่นกัน
zyxue

นี่คือคำอธิบายที่ดีnb4799.neu.edu/wordpress/?p=1850
Ivan Kush

ฉันต้องการจะเพิ่มว่ามีตัวแปรนอกนโยบายของ SARSA บทความนี้ ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) จะตรวจสอบการเปิดและปิดนโยบายในการแนะนำและจากนั้นอธิบายซาซาร์ที่คาดหวัง นอกจากนี้ยังค้นหาการคาดคะเนของนโยบายการไล่ระดับสี (EPG) เพื่อค้นหาทฤษฎีทั่วไปที่มีสองประเภท
Josh Albert

คำตอบ:


93

แรกของทั้งหมดที่มีเหตุผลที่เป็นตัวแทนได้จะทำอย่างไรไม่มีการกระทำโลภ ; ตัวแทนสามารถสำรวจหรือพวกเขาสามารถทำตามตัวเลือก นี่ไม่ใช่สิ่งที่แยกตามนโยบายออกจากการเรียนรู้นอกนโยบาย

ด้วยเหตุผลที่ว่า Q-การเรียนรู้นอกนโยบายก็คือว่ามันปรับปรุง Q-ค่าของการใช้ Q-ค่าของรัฐต่อไปและการกระทำโลภแบบ'กล่าวอีกนัยหนึ่งมันประมาณการส่งคืน ( ผลตอบแทนรวมในอนาคตลดราคา) สำหรับคู่การกระทำของรัฐที่สมมติว่านโยบายโลภถูกติดตามแม้ว่าข้อเท็จจริงที่ว่ามันไม่ได้ติดตามนโยบายโลภsa a

ด้วยเหตุผลที่ว่าซาร์ซาอยู่ในนโยบายก็คือว่ามันปรับปรุง Q-ค่าของการใช้ Q-ค่าของรัฐต่อไปและนโยบายปัจจุบันของการกระทำ'' มันประเมินผลตอบแทนสำหรับคู่การกระทำของรัฐสมมติว่านโยบายปัจจุบันยังคงมีการปฏิบัติตามsa

ความแตกต่างจะหายไปหากนโยบายปัจจุบันเป็นนโยบายโลภ อย่างไรก็ตามตัวแทนดังกล่าวจะไม่ดีเพราะมันไม่เคยสำรวจ

คุณเคยดูหนังสือเล่มนี้ออนไลน์ฟรีหรือไม่? Richard S. Sutton และ Andrew G. Barto การเรียนรู้การเสริมแรง: การแนะนำ รุ่นที่สอง, MIT Press, Cambridge, MA, 2018


8
คำอธิบายที่ดี! ตัวอย่างของคุณเกี่ยวกับการเรียนรู้แบบ Q คือสูตรที่ดีกว่าในหนังสือของ Sutton ซึ่งกล่าวว่า: " ฟังก์ชั่นค่าแอ็คชั่นที่เรียนรู้, Q, โดยตรงประมาณ Q *, ฟังก์ชั่นการกระทำค่าที่ดีที่สุด การวิเคราะห์อัลกอริทึมและเปิดใช้งานการพิสูจน์การรวมก่อนหน้านโยบายยังคงมีผลในการที่จะกำหนดคู่การกระทำของรัฐที่เข้าเยี่ยมชมและปรับปรุง "
Ciprian Tomoiagă

3
โดยทั่วไปแล้วฉันไม่พบ Sutton และ Barto ที่อ่านง่ายมาก ฉันพบว่าคำอธิบายที่พวกเขาเสนอนั้นไม่สามารถเข้าใจได้มากนัก ฉันไม่แน่ใจว่าทำไมหนังสือของพวกเขาถึงได้รับการแนะนำไปทั่วทุกแห่ง
SN

@SN สำหรับนักเรียนจำนวนมากที่เรียนรู้การเสริมแรง Sutton และ Barto เป็นหนังสือเล่มแรกที่พวกเขาอ่าน
Neil G

3
@JakubArnold หนังสือ Sutton & Barto ต้นฉบับมาจากปี 1998 และไม่ครอบคลุมการเรียนรู้การเสริมแรงอย่างลึกซึ้ง ฉบับที่ 2 กล่าวถึงสิ่งต่าง ๆ อย่าง AlphaGo เท่านั้น แต่จุดเน้นของหนังสือเล่มนี้เป็นแนวทางแบบดั้งเดิมมากกว่า หากคุณต้องการทรัพยากร RL เพิ่มเติมดูที่รายการนี้ ฉันแนะนำวิดีโอของ David Silver และหนังสือของ Puterman เนื่องจากเข้าถึงได้ง่ายกว่า สำหรับเนื้อหาทางทฤษฎีเพิ่มเติมฉันแนะนำหนังสือของ Bertsekas ลองดูที่เว็บไซต์ Spinning Up สำหรับอัลกอริทึม DRL และลิงก์ไปยังเอกสารต้นฉบับ
Douglas De Rizzo Meneghetti

1
@AlbertChen "ดังนั้นในกรณีนี้มันขึ้นอยู่กับการสำรวจหรือไม่": ไม่เพราะทั้งสองอัลกอริทึมสำรวจ ความแตกต่างคือวิธีการอัปเดต Q
Neil G

13

วิธีการตามนโยบายประเมินมูลค่าของนโยบายขณะที่ใช้เพื่อควบคุม

ในการปิดนโยบายวิธีการนโยบายที่ใช้ในการสร้างพฤติกรรมที่เรียกว่าพฤติกรรมนโยบายอาจจะไม่เกี่ยวข้องกับนโยบายที่ได้รับการประเมินและการปรับปรุงที่เรียกว่าการประมาณค่านโยบาย

ข้อได้เปรียบของการแยกนี้คือนโยบายการประเมินอาจกำหนดขึ้น (เช่นโลภ) ในขณะที่นโยบายพฤติกรรมสามารถดำเนินการต่อไปเพื่อดำเนินการตัวอย่างที่เป็นไปได้ทั้งหมด

สำหรับรายละเอียดเพิ่มเติมให้ดูส่วนที่ 5.4 และ 5.6 ของการเรียนรู้การเสริมแรงหนังสือ: บทนำโดย Barto และ Sutton ฉบับพิมพ์ครั้งแรก


7

ความแตกต่างระหว่างวิธี Off-policy และ On-policy คือวิธีแรกที่คุณไม่จำเป็นต้องทำตามนโยบายใด ๆ ตัวแทนของคุณอาจทำงานแบบสุ่มและแม้ว่าวิธีนี้ off-policy ยังสามารถค้นหานโยบายที่ดีที่สุดได้ ในทางกลับกันวิธีการตามนโยบายจะขึ้นอยู่กับนโยบายที่ใช้ ในกรณีของ Q-Learning ซึ่งเป็นนโยบายนอกจะพบนโยบายที่ดีที่สุดที่เป็นอิสระจากนโยบายที่ใช้ในระหว่างการสำรวจอย่างไรก็ตามนี่เป็นความจริงเฉพาะเมื่อคุณเยี่ยมชมรัฐที่แตกต่างกันเวลาพอ คุณสามารถพบได้ในเอกสารต้นฉบับโดยWatkinsหลักฐานที่แสดงให้เห็นว่าคุณสมบัติที่ดีมากของ Q-Learning อย่างไรก็ตามมีการแลกเปลี่ยนและวิธีการนอกนโยบายมีแนวโน้มที่จะช้ากว่าวิธีการตามนโยบาย นี่คือลิงค์พร้อมข้อมูลสรุปที่น่าสนใจอื่น ๆ ของคุณสมบัติของทั้งสองวิธี


1
วิธีการนอกนโยบายไม่เพียง แต่ช้าลงเท่านั้น แต่อาจไม่เสถียรเมื่อรวมกับการบูตสแตรป (เช่นวิธีที่ Q-learning สร้างการประเมินจากกันและกัน) และการประมาณฟังก์ชั่นการทำงาน (เช่นโครงข่ายประสาทเทียม)
Neil Slater

7

ก่อนอื่นนโยบายจริง ๆ (แสดงโดย ) หมายถึงอะไร นโยบายระบุการดำเนินกซึ่งเกิดขึ้นในสถานะ (หรือแม่นยำกว่าคือความน่าจะเป็นที่การกระทำจะดำเนินการในสถานะ )π
asπas

ประการที่สองเราเรียนรู้ประเภทใด
1. ประเมินฟังก์ชัน : ทำนายผลรวมของรางวัลลดราคาในอนาคตโดยที่คือการกระทำและคือสถานะ 2. ค้นหา (จริงๆแล้ว ) ที่ให้ผลตอบแทนสูงสุดQ(s,a)as
ππ(a|s)

กลับไปที่คำถามเดิม On-นโยบายและการออกนโยบายการเรียนรู้เป็นเพียงที่เกี่ยวข้องกับงานแรก: การประเมินA)Q(s,a)

ความแตกต่างคือ:
ในเมื่อนโยบายการเรียนรู้ฟังก์ชั่นที่ได้เรียนรู้จากการกระทำเราเอาใช้นโยบายปัจจุบันของเรา\ ในการปิดนโยบายการเรียนรู้ฟังก์ชั่นที่ได้เรียนรู้จากการกระทำที่แตกต่างกัน (เช่นการกระทำที่สุ่ม) เราไม่จำเป็นต้องมีนโยบายเลย!Q(s,a)π
Q(s,a)

นี่คือฟังก์ชั่นอัพเดทสำหรับอัลกอริทึมSARSA ตามนโยบาย : ที่คือการกระทำที่ถูกนำตัวไปตามนโยบาย\Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

เปรียบเทียบกับฟังก์ชั่นอัพเดทสำหรับอัลกอริทึมQ-learning นอกนโยบาย : ที่กระทำทั้งหมดที่ได้รับการตรวจสอบในรัฐQ(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

จากหนังสือ Sutton: "วิธีการตามนโยบายในส่วนก่อนหน้านี้เป็นการประนีประนอม - มันเรียนรู้ค่าการกระทำไม่ใช่สำหรับนโยบายที่ดีที่สุด แต่สำหรับนโยบายที่เหมาะสมที่สุดที่ยังคงสำรวจแนวทางที่ตรงไปตรงมามากขึ้นคือการใช้สองนโยบาย สิ่งหนึ่งที่เรียนรู้และกลายเป็นนโยบายที่เหมาะสมที่สุดและเป็นนโยบายที่มีการสำรวจมากขึ้นและถูกนำมาใช้เพื่อสร้างพฤติกรรมนโยบายที่เรียนรู้เรียกว่านโยบายเป้าหมายและนโยบายที่ใช้ในการสร้างพฤติกรรมนั้นเรียกว่านโยบายพฤติกรรม ในกรณีนี้เราบอกว่าการเรียนรู้มาจากข้อมูล“ o↵” นโยบายเป้าหมายและกระบวนการโดยรวมเรียกว่าการเรียนรู้นโยบาย o "”


ถ้าคุณทำตามคำอธิบายนี้มันไม่ง่ายเลยที่จะบอกว่าทำไมการเรียนรู้ Q เป็นเรื่องนอกนโยบาย
Albert Chen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.