อะไรคือความแตกต่างระหว่างการเรียนรู้นอกระบบกับการเรียนรู้นอกห้องเรียน?

78

เว็บไซต์ปัญญาประดิษฐ์กำหนดการเรียนรู้นอกห้องเรียนและนอกนโยบายดังนี้

"ผู้เรียนนอกนโยบายเรียนรู้คุณค่าของนโยบายที่ดีที่สุดโดยไม่ขึ้นกับการกระทำของตัวแทน Q-learning เป็นผู้เรียนนอกนโยบายผู้เรียนตามนโยบายจะได้เรียนรู้คุณค่าของนโยบายที่ดำเนินการโดยตัวแทนรวมถึงขั้นตอนการสำรวจ ."

ฉันต้องการขอคำชี้แจงของคุณเกี่ยวกับเรื่องนี้เพราะพวกเขาดูเหมือนจะไม่สร้างความแตกต่างให้ฉัน คำจำกัดความทั้งสองดูเหมือนว่าเหมือนกัน สิ่งที่ฉันเข้าใจจริง ๆ คือการเรียนรู้โดยใช้แบบจำลองและแบบจำลองและฉันไม่รู้ว่าพวกเขามีส่วนเกี่ยวข้องกับสิ่งที่สงสัยหรือไม่

เป็นไปได้อย่างไรที่นโยบายที่ดีที่สุดจะได้รับการเรียนรู้อย่างอิสระจากการกระทำของตัวแทน นโยบายไม่ได้เรียนรู้เมื่อตัวแทนดำเนินการหรือไม่

machine-learning reinforcement-learning artificial-intelligence

— CGO
แหล่งที่มา

1

ฉันเพิ่มความคิดเห็นไปที่stackoverflow.com/questions/6848828/…ส่วนTL; NRอาจมีประโยชน์สำหรับความเข้าใจเช่นกัน

— zyxue

นี่คือคำอธิบายที่ดีnb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

ฉันต้องการจะเพิ่มว่ามีตัวแปรนอกนโยบายของ SARSA บทความนี้ ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) จะตรวจสอบการเปิดและปิดนโยบายในการแนะนำและจากนั้นอธิบายซาซาร์ที่คาดหวัง นอกจากนี้ยังค้นหาการคาดคะเนของนโยบายการไล่ระดับสี (EPG) เพื่อค้นหาทฤษฎีทั่วไปที่มีสองประเภท

— Josh Albert

93

แรกของทั้งหมดที่มีเหตุผลที่เป็นตัวแทนได้จะทำอย่างไรไม่มีการกระทำโลภ ; ตัวแทนสามารถสำรวจหรือพวกเขาสามารถทำตามตัวเลือก นี่ไม่ใช่สิ่งที่แยกตามนโยบายออกจากการเรียนรู้นอกนโยบาย

ด้วยเหตุผลที่ว่า Q-การเรียนรู้นอกนโยบายก็คือว่ามันปรับปรุง Q-ค่าของการใช้ Q-ค่าของรัฐต่อไปและการกระทำโลภแบบ'กล่าวอีกนัยหนึ่งมันประมาณการส่งคืน ( ผลตอบแทนรวมในอนาคตลดราคา) สำหรับคู่การกระทำของรัฐที่สมมติว่านโยบายโลภถูกติดตามแม้ว่าข้อเท็จจริงที่ว่ามันไม่ได้ติดตามนโยบายโลภ $s'$ $a'$

ด้วยเหตุผลที่ว่าซาร์ซาอยู่ในนโยบายก็คือว่ามันปรับปรุง Q-ค่าของการใช้ Q-ค่าของรัฐต่อไปและนโยบายปัจจุบันของการกระทำ'' มันประเมินผลตอบแทนสำหรับคู่การกระทำของรัฐสมมติว่านโยบายปัจจุบันยังคงมีการปฏิบัติตาม $s'$ $a''$

ความแตกต่างจะหายไปหากนโยบายปัจจุบันเป็นนโยบายโลภ อย่างไรก็ตามตัวแทนดังกล่าวจะไม่ดีเพราะมันไม่เคยสำรวจ

คุณเคยดูหนังสือเล่มนี้ออนไลน์ฟรีหรือไม่? Richard S. Sutton และ Andrew G. Barto การเรียนรู้การเสริมแรง: การแนะนำ รุ่นที่สอง, MIT Press, Cambridge, MA, 2018

— นีลจี
แหล่งที่มา

8

คำอธิบายที่ดี! ตัวอย่างของคุณเกี่ยวกับการเรียนรู้แบบ Q คือสูตรที่ดีกว่าในหนังสือของ Sutton ซึ่งกล่าวว่า: " ฟังก์ชั่นค่าแอ็คชั่นที่เรียนรู้, Q, โดยตรงประมาณ Q *, ฟังก์ชั่นการกระทำค่าที่ดีที่สุด การวิเคราะห์อัลกอริทึมและเปิดใช้งานการพิสูจน์การรวมก่อนหน้านโยบายยังคงมีผลในการที่จะกำหนดคู่การกระทำของรัฐที่เข้าเยี่ยมชมและปรับปรุง "

— Ciprian Tomoiagă

3

โดยทั่วไปแล้วฉันไม่พบ Sutton และ Barto ที่อ่านง่ายมาก ฉันพบว่าคำอธิบายที่พวกเขาเสนอนั้นไม่สามารถเข้าใจได้มากนัก ฉันไม่แน่ใจว่าทำไมหนังสือของพวกเขาถึงได้รับการแนะนำไปทั่วทุกแห่ง

— SN

@SN สำหรับนักเรียนจำนวนมากที่เรียนรู้การเสริมแรง Sutton และ Barto เป็นหนังสือเล่มแรกที่พวกเขาอ่าน

— Neil G

3

@JakubArnold หนังสือ Sutton & Barto ต้นฉบับมาจากปี 1998 และไม่ครอบคลุมการเรียนรู้การเสริมแรงอย่างลึกซึ้ง ฉบับที่ 2 กล่าวถึงสิ่งต่าง ๆ อย่าง AlphaGo เท่านั้น แต่จุดเน้นของหนังสือเล่มนี้เป็นแนวทางแบบดั้งเดิมมากกว่า หากคุณต้องการทรัพยากร RL เพิ่มเติมดูที่รายการนี้ ฉันแนะนำวิดีโอของ David Silver และหนังสือของ Puterman เนื่องจากเข้าถึงได้ง่ายกว่า สำหรับเนื้อหาทางทฤษฎีเพิ่มเติมฉันแนะนำหนังสือของ Bertsekas ลองดูที่เว็บไซต์ Spinning Up สำหรับอัลกอริทึม DRL และลิงก์ไปยังเอกสารต้นฉบับ

— Douglas De Rizzo Meneghetti

1

@AlbertChen "ดังนั้นในกรณีนี้มันขึ้นอยู่กับการสำรวจหรือไม่": ไม่เพราะทั้งสองอัลกอริทึมสำรวจ ความแตกต่างคือวิธีการอัปเดต Q

— Neil G

13

วิธีการตามนโยบายประเมินมูลค่าของนโยบายขณะที่ใช้เพื่อควบคุม

ในการปิดนโยบายวิธีการนโยบายที่ใช้ในการสร้างพฤติกรรมที่เรียกว่าพฤติกรรมนโยบายอาจจะไม่เกี่ยวข้องกับนโยบายที่ได้รับการประเมินและการปรับปรุงที่เรียกว่าการประมาณค่านโยบาย

ข้อได้เปรียบของการแยกนี้คือนโยบายการประเมินอาจกำหนดขึ้น (เช่นโลภ) ในขณะที่นโยบายพฤติกรรมสามารถดำเนินการต่อไปเพื่อดำเนินการตัวอย่างที่เป็นไปได้ทั้งหมด

สำหรับรายละเอียดเพิ่มเติมให้ดูส่วนที่ 5.4 และ 5.6 ของการเรียนรู้การเสริมแรงหนังสือ: บทนำโดย Barto และ Sutton ฉบับพิมพ์ครั้งแรก

— nbro
แหล่งที่มา

7

ความแตกต่างระหว่างวิธี Off-policy และ On-policy คือวิธีแรกที่คุณไม่จำเป็นต้องทำตามนโยบายใด ๆ ตัวแทนของคุณอาจทำงานแบบสุ่มและแม้ว่าวิธีนี้ off-policy ยังสามารถค้นหานโยบายที่ดีที่สุดได้ ในทางกลับกันวิธีการตามนโยบายจะขึ้นอยู่กับนโยบายที่ใช้ ในกรณีของ Q-Learning ซึ่งเป็นนโยบายนอกจะพบนโยบายที่ดีที่สุดที่เป็นอิสระจากนโยบายที่ใช้ในระหว่างการสำรวจอย่างไรก็ตามนี่เป็นความจริงเฉพาะเมื่อคุณเยี่ยมชมรัฐที่แตกต่างกันเวลาพอ คุณสามารถพบได้ในเอกสารต้นฉบับโดยWatkinsหลักฐานที่แสดงให้เห็นว่าคุณสมบัติที่ดีมากของ Q-Learning อย่างไรก็ตามมีการแลกเปลี่ยนและวิธีการนอกนโยบายมีแนวโน้มที่จะช้ากว่าวิธีการตามนโยบาย นี่คือลิงค์พร้อมข้อมูลสรุปที่น่าสนใจอื่น ๆ ของคุณสมบัติของทั้งสองวิธี

— กรกฎาคม
แหล่งที่มา

1

วิธีการนอกนโยบายไม่เพียง แต่ช้าลงเท่านั้น แต่อาจไม่เสถียรเมื่อรวมกับการบูตสแตรป (เช่นวิธีที่ Q-learning สร้างการประเมินจากกันและกัน) และการประมาณฟังก์ชั่นการทำงาน (เช่นโครงข่ายประสาทเทียม)

— Neil Slater

7

ก่อนอื่นนโยบายจริง ๆ (แสดงโดย ) หมายถึงอะไร นโยบายระบุการดำเนินกซึ่งเกิดขึ้นในสถานะ (หรือแม่นยำกว่าคือความน่าจะเป็นที่การกระทำจะดำเนินการในสถานะ ) $\pi$
$a$ $s$ $\pi$ $a$ $s$

ประการที่สองเราเรียนรู้ประเภทใด
1. ประเมินฟังก์ชัน : ทำนายผลรวมของรางวัลลดราคาในอนาคตโดยที่คือการกระทำและคือสถานะ 2. ค้นหา (จริงๆแล้ว ) ที่ให้ผลตอบแทนสูงสุด $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

กลับไปที่คำถามเดิม On-นโยบายและการออกนโยบายการเรียนรู้เป็นเพียงที่เกี่ยวข้องกับงานแรก: การประเมินA) $Q(s,a)$

ความแตกต่างคือ:
ในเมื่อนโยบายการเรียนรู้ฟังก์ชั่นที่ได้เรียนรู้จากการกระทำเราเอาใช้นโยบายปัจจุบันของเรา\ ในการปิดนโยบายการเรียนรู้ฟังก์ชั่นที่ได้เรียนรู้จากการกระทำที่แตกต่างกัน (เช่นการกระทำที่สุ่ม) เราไม่จำเป็นต้องมีนโยบายเลย! $Q(s,a)$ $\pi$
$Q(s,a)$

นี่คือฟังก์ชั่นอัพเดทสำหรับอัลกอริทึมSARSA ตามนโยบาย : ที่คือการกระทำที่ถูกนำตัวไปตามนโยบาย\ $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

เปรียบเทียบกับฟังก์ชั่นอัพเดทสำหรับอัลกอริทึมQ-learning นอกนโยบาย : ที่กระทำทั้งหมดที่ได้รับการตรวจสอบในรัฐ $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Dmitry Mottl
แหล่งที่มา

1

จากหนังสือ Sutton: "วิธีการตามนโยบายในส่วนก่อนหน้านี้เป็นการประนีประนอม - มันเรียนรู้ค่าการกระทำไม่ใช่สำหรับนโยบายที่ดีที่สุด แต่สำหรับนโยบายที่เหมาะสมที่สุดที่ยังคงสำรวจแนวทางที่ตรงไปตรงมามากขึ้นคือการใช้สองนโยบาย สิ่งหนึ่งที่เรียนรู้และกลายเป็นนโยบายที่เหมาะสมที่สุดและเป็นนโยบายที่มีการสำรวจมากขึ้นและถูกนำมาใช้เพื่อสร้างพฤติกรรมนโยบายที่เรียนรู้เรียกว่านโยบายเป้าหมายและนโยบายที่ใช้ในการสร้างพฤติกรรมนั้นเรียกว่านโยบายพฤติกรรม ในกรณีนี้เราบอกว่าการเรียนรู้มาจากข้อมูล“ o↵” นโยบายเป้าหมายและกระบวนการโดยรวมเรียกว่าการเรียนรู้นโยบาย o "”

— โอลิเวอร์โกลด์สไตน์
แหล่งที่มา

ถ้าคุณทำตามคำอธิบายนี้มันไม่ง่ายเลยที่จะบอกว่าทำไมการเรียนรู้ Q เป็นเรื่องนอกนโยบาย

— Albert Chen