อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?


28

อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?

สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้ ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด


ดูเพิ่มเติมคำตอบนี้: qr.ae/TUtHbv
nbro

คุณหมายความว่าคุณสามารถเปลี่ยนผู้เรียนแบบจำลองฟรีให้เป็นแบบจำลองได้อย่างไร
HelloGoodbye

คำตอบ:


14

การเรียนรู้การเสริมแรงแบบจำลองมีตัวแทนพยายามที่จะเข้าใจโลกและสร้างแบบจำลองเพื่อเป็นตัวแทน ที่นี่ตัวแบบพยายามจับภาพ 2 ฟังก์ชั่น, ฟังก์ชั่นการเปลี่ยนจากสถานะTและฟังก์ชันรางวัลR Rจากโมเดลนี้เอเจนต์มีข้อมูลอ้างอิงและสามารถวางแผนได้อย่างเหมาะสม

อย่างไรก็ตามไม่จำเป็นต้องเรียนรู้รูปแบบและตัวแทนสามารถเรียนรู้นโยบายโดยตรงโดยใช้อัลกอริทึมเช่น Q-learning หรือไล่ระดับนโยบาย

การตรวจสอบง่าย ๆ เพื่อดูว่าอัลกอริทึม RL เป็นแบบจำลองหรือไม่มีโมเดลคือ:

หากหลังจากเรียนรู้ตัวแทนสามารถทำการคาดการณ์เกี่ยวกับสิ่งที่รัฐต่อไปและรางวัลจะเป็นก่อนที่จะดำเนินการในแต่ละการกระทำมันเป็นขั้นตอนวิธี RL ตามแบบจำลอง

หากไม่สามารถทำได้แสดงว่าเป็นอัลกอริธึมที่ไม่มีโมเดล


2
ในคำพูดของคุณ "ไม่จำเป็นที่จะต้องเรียนรู้รูปแบบ" และคำถามของฉันคือ: ทำไมทุกคนจะใช้วิธีแบบจำลองตาม?
vin

4
ตัวอย่างใหญ่ที่ฉันนึกได้คือเมื่อคุณต้องการให้ตัวแทนเรียนรู้เกี่ยวกับสภาพแวดล้อมโดยไม่ต้องปรับอะไรให้เหมาะสม นี่เป็นส่วนหนึ่งของปัญหาของการเรียนรู้อย่างต่อเนื่องคุณจำเป็นต้องสร้างแบบจำลองภายในเช่น "ฉันชนกำแพงเมื่อเซ็นเซอร์วัดระยะทางของฉันอ่านกำแพงใกล้" จากนั้นเอเจนต์นั้นสามารถสรุปข้อมูลดังกล่าวกับงานหลายอย่างได้หากเกิดขึ้น
Jaden Travnik

2
ขอบคุณ @Jaden Travnik ฉันเข้าใจว่าทำไมมันจะมีประโยชน์ในการเรียนรู้การเป็นตัวแทนของสภาพแวดล้อม ("ฉันตีกำแพงเมื่อระยะทางของฉันอ่านผนังใกล้") โดยไม่ต้องแก้ไขงานบางอย่าง (เช่นการนำทางไปยังห้องครัว) แต่ทำไมสิ่งนี้ถึงได้รับการพิจารณาว่าปราศจาก RL แบบและไม่ใช่งานการเรียนรู้ที่มีการดูแลวานิลลา?
vin

2
สิ่งนี้จะไม่ได้รับการกำกับดูแลการเรียนรู้เพราะไม่มีข้อมูลกำกับ ตัวแทนไม่ทราบว่าสัญญาณหมายความว่าอย่างไรจึงไม่สามารถบอกเซ็นเซอร์ระยะจากเทอร์โมมิเตอร์ได้ สิ่งที่ตัวแทนเรียนรู้คือการทำนายสัญญาณจากสัญญาณอื่น ๆ ซึ่งเป็นแบบอย่างของโลก
Jaden Travnik

2
ด้วยวิธีการตามโมเดลตัวแทนเรียนรู้ที่จะทำนายสถานะต่อไปตามคำอธิบายเดิมของคุณ มันทำได้โดยการเรียนรู้ <x, y> โดยที่ x คือ (s1, action) และ y คือ (s2, รางวัล) ขออภัยถ้าฉันตีความผิด แต่ฉันไม่ได้เรียนรู้แบบมีผู้สอนใช่หรือไม่
vin

12

อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?

ในการเรียนรู้การเสริมแรงคำว่า "ตามโมเดล" และ "ไม่มีโมเดล" ไม่ได้อ้างถึงการใช้โครงข่ายประสาทเทียมหรือโมเดลการเรียนรู้ทางสถิติอื่น ๆ เพื่อทำนายค่าหรือแม้กระทั่งทำนายสถานะถัดไป ส่วนหนึ่งของอัลกอริธึมตามโมเดลและถูกเรียกว่า "โมเดล" โดยไม่คำนึงว่าอัลกอริทึมนั้นใช้โมเดลหรือไม่มีโมเดล)

คำนี้หมายถึงอย่างเคร่งครัดว่าในระหว่างการเรียนรู้หรือการกระทำตัวแทนใช้การคาดการณ์การตอบสนองต่อสภาพแวดล้อม ตัวแทนสามารถใช้การทำนายเดียวจากแบบจำลองของรางวัลต่อไปและสถานะถัดไป (ตัวอย่าง) หรือสามารถขอแบบจำลองสำหรับรางวัลถัดไปที่คาดหวังหรือการกระจายอย่างเต็มที่ของรัฐถัดไปและผลตอบแทนต่อไป การคาดการณ์เหล่านี้สามารถให้ได้อย่างสมบูรณ์นอกตัวแทนการเรียนรู้ - เช่นโดยรหัสคอมพิวเตอร์ที่เข้าใจกฎของลูกเต๋าหรือเกมกระดาน หรือพวกเขาสามารถเรียนรู้ได้โดยตัวแทนซึ่งในกรณีนี้พวกเขาจะเป็นค่าประมาณ

เพียงเพราะมีรูปแบบของสภาพแวดล้อมที่นำมาใช้ไม่ได้หมายความว่าเอเจนต์ RL คือ "แบบจำลองตามรูปแบบ" เพื่อให้มีคุณสมบัติเป็น "ใช้โมเดล" อัลกอริทึมการเรียนรู้จะต้องอ้างอิงโมเดลอย่างชัดเจน:

  • อัลกอริทึมที่หมดจดตัวอย่างจากประสบการณ์เช่น Monte Carlo Control, SARSA, Q-learning, นักแสดง - นักวิจารณ์เป็นอัลกอริทึม RL แบบ "ฟรีโมเดล" พวกเขาพึ่งพาตัวอย่างจริงจากสภาพแวดล้อมและไม่เคยใช้การคาดการณ์ที่สร้างขึ้นจากสถานะถัดไปและรางวัลต่อไปเพื่อเปลี่ยนพฤติกรรม (แม้ว่าพวกเขาอาจจะตัวอย่างจากหน่วยความจำประสบการณ์ซึ่งใกล้เคียงกับแบบจำลอง)

  • อัลกอริธึมตามโมเดลต้นแบบคือการเขียนโปรแกรมแบบไดนามิก (การวนซ้ำนโยบายและการวนซ้ำมูลค่า) - ทั้งหมดนี้ใช้การทำนายหรือการกระจายของโมเดลของสถานะถัดไปและให้รางวัลเพื่อคำนวณการกระทำที่เหมาะสมที่สุด โดยเฉพาะในการเขียนโปรแกรมแบบไดนามิกโมเดลจะต้องจัดเตรียมความน่าจะเป็นในการเปลี่ยนสถานะและรางวัลที่คาดหวังจากรัฐคู่กระทำใด ๆ หมายเหตุนี่ไม่ค่อยเป็นแบบเรียนรู้

  • การเรียนรู้ TD พื้นฐานโดยใช้ค่าสถานะเท่านั้นจะต้องเป็นแบบจำลองเพื่อที่จะทำงานเป็นระบบควบคุมและเลือกการกระทำ ในการเลือกการกระทำที่ดีที่สุดจะต้องค้นหาแบบจำลองที่ทำนายว่าจะเกิดอะไรขึ้นในแต่ละการกระทำและใช้นโยบายเช่นπ(s)=argmaxas,rp(s,r|s,a)(r+v(s))โดยที่พี(s',R|s,a)ความน่าจะเป็นของการได้รับรางวัลRและรัฐต่อไปs'เมื่อการดำเนินการในรัฐs ที่ฟังก์ชั่น P ( s ' , R | s , )เป็นหลักรูปแบบasพี(s',R|s,a)

วรรณกรรม RL สร้างความแตกต่างระหว่าง "แบบจำลอง" เป็นแบบจำลองของสภาพแวดล้อมสำหรับการเรียนรู้ "แบบจำลองตามรูปแบบ" และ "ไม่มีแบบจำลอง" และการใช้ผู้เรียนเชิงสถิติเช่นเครือข่ายประสาท

ใน RL เครือข่ายประสาทมักใช้ในการเรียนรู้และทำให้ฟังก์ชั่นค่าทั่วไปเช่นค่า Q ซึ่งทำนายผลตอบแทนรวม เครือข่ายประสาทที่ได้รับการฝึกฝนเช่นนี้มักถูกเรียกว่า "แบบจำลอง" ในการเรียนรู้แบบมีผู้สอน อย่างไรก็ตามในวรรณกรรม RL คุณจะเห็นคำว่า "ตัวประมาณฟังก์ชั่น" ใช้สำหรับเครือข่ายดังกล่าวเพื่อหลีกเลี่ยงความคลุมเครือ

สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้

ฉันคิดว่าที่นี่คุณกำลังใช้ความเข้าใจทั่วไปของคำว่า "แบบจำลอง" เพื่อรวมโครงสร้างใด ๆ ที่ทำให้การคาดการณ์มีประโยชน์ ที่จะนำไปใช้กับเช่นตารางค่า Q ใน SARSA

อย่างไรก็ตามดังที่อธิบายไว้ข้างต้นนั่นไม่ใช่วิธีการใช้คำใน RL ดังนั้นแม้ว่าคุณจะเข้าใจว่า RL สร้างการเป็นตัวแทนภายในที่มีประโยชน์นั้นถูกต้อง แต่คุณก็ไม่ถูกต้องทางเทคนิคที่สามารถใช้ในการกำหนดกรอบใหม่ระหว่าง "ปราศจากโมเดล" เป็น "อิงโมเดล" เนื่องจากคำเหล่านั้นมีความหมายเฉพาะมากใน RL .

ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด

โดยทั่วไปแล้วด้วยสถานะปัจจุบันของศิลปะใน RL หากคุณไม่มีโมเดลที่ถูกต้องซึ่งเป็นส่วนหนึ่งของคำนิยามปัญหาวิธีการแบบฟรีโมเดลมักจะเหนือกว่า

มีความสนใจมากมายในตัวแทนที่สร้างแบบจำลองการทำนายของสภาพแวดล้อมและการทำเช่นนี้ในฐานะ "ผลข้างเคียง" (ในขณะที่ยังคงเป็นอัลกอริธึมแบบฟรี) ยังคงมีประโยชน์ - มันอาจทำให้เครือข่ายประสาทเป็นปกติ คุณลักษณะที่สามารถใช้ในนโยบายหรือเครือข่ายค่า อย่างไรก็ตามเอเจนต์ตามโมเดลที่เรียนรู้โมเดลของตนเองสำหรับการวางแผนมีปัญหาที่ความไม่ถูกต้องในโมเดลเหล่านี้อาจทำให้เกิดความไม่แน่นอน (ความไม่ถูกต้องจะเพิ่มขึ้นอีกในอนาคตที่เอเจนต์มอง) การรุกล้ำที่คาดหวังบางอย่างกำลังทำขึ้นโดยใช้ตัวแทนจากจินตนาการและ / หรือกลไกในการตัดสินใจว่าจะไว้วางใจโมเดลที่เรียนรู้ในระหว่างการวางแผนและเวลาเท่าใด

ตอนนี้ (ในปีพ. ศ. 2561) หากคุณมีปัญหาจริงในสภาพแวดล้อมที่ไม่มีรูปแบบที่รู้จักชัดเจนในตอนเริ่มต้นการเดิมพันที่ปลอดภัยที่สุดคือการใช้วิธีที่ไม่มีรูปแบบเช่น DQN หรือ A3C นั่นอาจเปลี่ยนแปลงได้เมื่อสนามเคลื่อนที่อย่างรวดเร็วและสถาปัตยกรรมที่ซับซ้อนขึ้นใหม่อาจเป็นบรรทัดฐานในไม่กี่ปี


1
การแก้ไขเล็กน้อยโดยปกติแล้วคำว่า "ตามโมเดล" หรือ "ฟรีโมเดล" จะไม่ใช้สำหรับอัลกอริทึมการวางแผนเช่น MCTS มันใช้เพื่อจำแนกอัลกอริทึมการเรียนรู้เท่านั้น
Miguel Saraiva

@MiguelSaraiva: ฉันไม่แน่ใจ 100% เกี่ยวกับเรื่องนี้ แต่ได้ลบการอ้างอิงถึง MCTS คุณจะวาง DynaQ เกี่ยวกับข้อ จำกัด ของการใช้ข้อกำหนดนี้ที่ไหน ฉันคิดว่ามันกลายเป็นเรื่องยุ่งยากเมื่ออัลกอริทึมทั้งหมดแบ่งปันมุมมองทั่วไปของโมเดล MDP และปรับปรุงนโยบายเพื่อบอกว่าขอบเขตอยู่ระหว่างการวางแผนและการเรียนรู้
Neil Slater

ฉันอาจผิดฉันเป็นสามเณรในพื้นที่ ฉันเพิ่งจำอาจารย์คนหนึ่งจากสนามที่แสดงความคิดเห็นนั้นหลังจากที่ฉันได้ทำข้อสังเกตเดียวกัน
Miguel Saraiva

5

ในการเรียนรู้การเสริมแรง (RL) มีตัวแทนซึ่งโต้ตอบกับสภาพแวดล้อม (ในขั้นตอนเวลา) ในแต่ละขั้นตอนเวลาตัวแทนตัดสินใจและรันกระทำ ,ass'R

เป้าหมายหลักของตัวแทนคือการรวบรวมรางวัลมากที่สุด "ในระยะยาว" ในการทำเช่นนั้นเอเจนต์ต้องค้นหานโยบายที่เหมาะสม (โดยประมาณซึ่งเป็นกลยุทธ์ที่เหมาะสมที่สุดในการทำงานในสภาพแวดล้อม) โดยทั่วไปแล้วนโยบายคือฟังก์ชั่นที่กำหนดสถานะปัจจุบันของสภาพแวดล้อมเอาท์พุทการกระทำ (หรือการกระจายความน่าจะเป็นเหนือการกระทำหากนโยบายเป็นแบบสุ่ม ) เพื่อดำเนินการในสภาพแวดล้อม นโยบายจึงถือได้ว่าเป็น "กลยุทธ์" ที่เอเจนต์ใช้ในการทำงานในสภาพแวดล้อมนี้ นโยบายที่ดีที่สุด (สำหรับสภาพแวดล้อมที่กำหนด) เป็นนโยบายที่หากปฏิบัติตามจะทำให้ตัวแทนรวบรวมรางวัลจำนวนมากที่สุดในระยะยาว (ซึ่งเป็นเป้าหมายของตัวแทน) ใน RL เราจึงสนใจค้นหานโยบายที่เหมาะสมที่สุด

สภาพแวดล้อมสามารถกำหนดได้ (นั่นคือคร่าวๆการกระทำเดียวกันในสถานะเดียวกันจะนำไปสู่สถานะถัดไปเหมือนกันสำหรับทุกขั้นตอนตลอดเวลา) หรือสุ่ม (หรือไม่กำหนดขึ้น) นั่นคือหากตัวแทนดำเนินการใน บางสถานะผลลัพธ์สถานะถัดไปของสภาพแวดล้อมอาจไม่จำเป็นต้องเหมือนกันเสมอไป: มีความน่าจะเป็นที่จะเป็นสถานะที่แน่นอน แน่นอนความไม่แน่นอนเหล่านี้จะทำให้การค้นหานโยบายที่ดีที่สุดยากขึ้น

ใน RL ปัญหามักถูกกำหนดทางคณิตศาสตร์เป็นกระบวนการตัดสินใจของมาร์คอฟ (MDP) MDP เป็นวิธีการแสดง "พลวัต" ของสภาพแวดล้อมนั่นคือวิธีที่สภาพแวดล้อมจะตอบสนองต่อการกระทำที่เป็นไปได้ที่ตัวแทนอาจใช้ในสถานะที่กำหนด ที่แม่นยำยิ่งกว่า MDP นั้นมีฟังก์ชั่นการเปลี่ยน (หรือ "โมเดลการเปลี่ยนแปลง") ซึ่งเป็นฟังก์ชั่นที่ให้สถานะปัจจุบันของสภาพแวดล้อมและการกระทำ (ซึ่งเอเจนต์อาจใช้) ส่งผลให้มีโอกาสในการ ของรัฐต่อไป ฟังก์ชั่นได้รับรางวัลยังเชื่อมโยงกับ MDP ฟังก์ชั่นการให้รางวัลจะให้รางวัลโดยแสดงสถานะของสภาพแวดล้อมในปัจจุบัน (และอาจเป็นการกระทำที่กระทำโดยตัวแทนและสถานะถัดไปของสภาพแวดล้อม) โดยรวมแล้วฟังก์ชั่นการเปลี่ยนแปลงและการให้รางวัลมักจะเรียกว่าแบบจำลองของสภาพแวดล้อม เพื่อสรุป MDP เป็นปัญหาและการแก้ไขปัญหาเป็นนโยบาย นอกจากนี้ "การเปลี่ยนแปลง" ของสภาพแวดล้อมยังถูกควบคุมด้วยฟังก์ชั่นการเปลี่ยนแปลงและการให้รางวัล (นั่นคือ "แบบจำลอง")

อย่างไรก็ตามเรามักจะไม่มี MDP นั่นคือเราไม่มีฟังก์ชั่นการเปลี่ยนและให้รางวัล (ของ MDP ที่เกี่ยวข้องกับสภาพแวดล้อม) ดังนั้นเราจึงไม่สามารถประเมินนโยบายจาก MDP ได้เนื่องจากไม่ทราบ โปรดทราบว่าโดยทั่วไปหากเรามีการเปลี่ยนแปลงและให้รางวัลฟังก์ชั่นของ MDP ที่เกี่ยวข้องกับสภาพแวดล้อมเราสามารถใช้ประโยชน์จากพวกเขาและดึงนโยบายที่เหมาะสม (โดยใช้อัลกอริธึมการเขียนโปรแกรมแบบไดนามิก)

ในกรณีที่ไม่มีฟังก์ชั่นเหล่านี้ (นั่นคือเมื่อไม่ทราบ MDP) เพื่อประเมินนโยบายที่เหมาะสมเอเจนต์ต้องโต้ตอบกับสภาพแวดล้อมและสังเกตการตอบสนองของสภาพแวดล้อม สิ่งนี้มักถูกเรียกว่า "ปัญหาการเรียนรู้การเสริมแรง" เพราะตัวแทนจะต้องประเมินนโยบายโดยการตอกย้ำความเชื่อของตนเกี่ยวกับการเปลี่ยนแปลงของสภาพแวดล้อม เมื่อเวลาผ่านไปเอเจนต์จะเริ่มเข้าใจว่าสภาพแวดล้อมตอบสนองต่อการกระทำของมันอย่างไรและสามารถเริ่มประเมินนโยบายที่เหมาะสมได้ ดังนั้นในปัญหา RL ตัวแทนประมาณการนโยบายที่ดีที่สุดที่จะทำงานในสภาพแวดล้อมที่ไม่รู้จัก (หรือบางส่วนที่รู้จัก) โดยการโต้ตอบกับมัน (โดยใช้วิธีการ "ทดลองและข้อผิดพลาด")

ในบริบทนี้ก แบบจำลองอัลกอริทึมเป็นอัลกอริทึมที่ใช้ฟังก์ชั่นการเปลี่ยนแปลง (และฟังก์ชั่นรางวัล) เพื่อประเมินนโยบายที่ดีที่สุด เอเจนต์อาจเข้าถึงฟังก์ชันการเปลี่ยนแปลงและการให้รางวัลโดยประมาณเท่านั้นซึ่งเอเจนต์สามารถเรียนรู้ได้ในขณะที่มีการโต้ตอบกับสภาพแวดล้อมหรือสามารถมอบให้กับเอเจนต์ (เช่นโดยเอเจนต์อื่น) โดยทั่วไปในอัลกอริทึมแบบจำลองตัวแทนสามารถคาดการณ์การเปลี่ยนแปลงของสภาพแวดล้อม (ในช่วงหรือหลังขั้นตอนการเรียนรู้) เพราะมันมีการประเมินฟังก์ชั่นการเปลี่ยนแปลง (และฟังก์ชั่นรางวัล) อย่างไรก็ตามโปรดทราบว่าฟังก์ชั่นการเปลี่ยนและให้รางวัลที่เอเจนต์ใช้เพื่อปรับปรุงการประเมินนโยบายที่เหมาะสมอาจเป็นการประมาณฟังก์ชั่น "ของจริง" ดังนั้นอาจไม่พบนโยบายที่ดีที่สุด (เนื่องจากการประมาณเหล่านี้)

รุ่นฟรีขั้นตอนวิธีการเป็นขั้นตอนวิธีการประเมินว่านโยบายที่ดีที่สุดโดยไม่ต้องใช้หรือการประเมินการเปลี่ยนแปลง (การเปลี่ยนแปลงและผลตอบแทนที่ฟังก์ชั่น) ของสภาพแวดล้อมที่ ในทางปฏิบัติอัลกอริธึมที่ไม่มีแบบจำลองจะประเมิน "ฟังก์ชั่นค่า" หรือ "นโยบาย" โดยตรงจากประสบการณ์โดยตรง (นั่นคือปฏิสัมพันธ์ระหว่างเอเจนต์และสภาพแวดล้อม) โดยไม่ต้องใช้ทั้งฟังก์ชันการเปลี่ยนหรือฟังก์ชันรางวัล ฟังก์ชั่นค่าสามารถคิดว่าเป็นฟังก์ชั่นที่ประเมินสถานะ (หรือการดำเนินการในรัฐ) สำหรับทุกรัฐ จากฟังก์ชันค่านี้จะสามารถรับนโยบายได้

ในทางปฏิบัติวิธีหนึ่งที่จะแยกแยะความแตกต่างระหว่างอัลกอริธึมที่ใช้โมเดลหรือโมเดลฟรีคือดูอัลกอริธึมและดูว่าพวกเขาใช้ฟังก์ชันการเปลี่ยนหรือให้รางวัล

ตัวอย่างเช่นลองดูกฎการอัพเดทหลักในอัลกอริทึม Q-learning :

Q(Sเสื้อ,Aเสื้อ)Q(Sเสื้อ,Aเสื้อ)+α(Rเสื้อ+1+γสูงสุดaQ(Sเสื้อ+1,a)-Q(Sเสื้อ,Aเสื้อ))

อย่างที่เราเห็นกฎการอัพเดทนี้ไม่ได้ใช้ความน่าจะเป็นที่กำหนดโดย MDP บันทึก:Rเสื้อ+1เป็นเพียงรางวัลที่ได้รับในขั้นตอนต่อไป (หลังจากดำเนินการ) แต่ไม่จำเป็นต้องรู้ล่วงหน้า ดังนั้น Q-learning เป็นอัลกอริธึมที่ไม่มีโมเดล

ตอนนี้เรามาดูกฎการอัพเดทหลักของอัลกอริทึมการปรับปรุงนโยบาย :

Q(s,a)Σs'S,RRพี(s',R|s,a)(R+γV(s'))

เราสามารถสังเกตได้ทันทีที่ใช้ พี(s',R|s,a)ความน่าจะเป็นที่กำหนดโดยแบบจำลอง MDP ดังนั้นการวนซ้ำนโยบาย (อัลกอริทึมการเขียนโปรแกรมแบบไดนามิก) ซึ่งใช้อัลกอริทึมการปรับปรุงนโยบายเป็นอัลกอริทึมที่ใช้แบบจำลอง


2

RL รุ่นฟรี

ใน Model-Free RL เอเจนต์ไม่สามารถเข้าถึงโมเดลของสภาพแวดล้อม ตามสภาพแวดล้อมฉันหมายถึงฟังก์ชั่นที่ทำนายการเปลี่ยนสถานะและผลตอบแทน

เมื่อถึงเวลาของการเขียนวิธีการแบบไม่มีรูปแบบเป็นที่นิยมและได้รับการวิจัยอย่างกว้างขวาง

RL-Model

ใน RL แบบอิงเอเจนต์มีการเข้าถึงโมเดลของสภาพแวดล้อม

ข้อได้เปรียบหลักคือช่วยให้ตัวแทนสามารถวางแผนล่วงหน้าโดยคิดล่วงหน้า ตัวแทนกลั่นผลลัพธ์จากการวางแผนล่วงหน้าเป็นนโยบายที่เรียนรู้ ตัวอย่างที่มีชื่อเสียงของรุ่น RL-Based เป็นAlphaZero

ข้อเสียเปรียบหลักคือมักจะไม่สามารถแสดงสภาพแวดล้อมจริง ๆ หลายครั้ง


ด้านล่างนี้เป็นอนุกรมวิธานที่ไม่ครบถ้วนสมบูรณ์ของอัลกอริทึม RL ซึ่งอาจช่วยให้คุณเห็นภาพภูมิทัศน์ RL ได้ดีขึ้น

ป้อนคำอธิบายรูปภาพที่นี่


1

ตามOpenAI - ชนิดของ RL อัลกอริทึมอัลกอริทึมที่ใช้รูปแบบของสภาพแวดล้อมเช่นฟังก์ชั่นที่คาดการณ์การเปลี่ยนสถานะและผลตอบแทนจะถูกเรียกว่าแบบที่ใช้วิธีการและผู้ที่ไม่ได้จะเรียกว่ารุ่นฟรี รุ่นนี้สามารถได้รับตัวแทนหรือเรียนรู้โดยตัวแทน

การใช้แบบจำลองช่วยให้ตัวแทนสามารถวางแผนโดยคิดล่วงหน้าเห็นว่าจะเกิดอะไรขึ้นกับตัวเลือกต่าง ๆ ที่เป็นไปได้และตัดสินใจเลือกตัวเลือกต่าง ๆ อย่างชัดเจน สิ่งนี้อาจมีประโยชน์เมื่อต้องเผชิญกับปัญหาที่ต้องใช้การคิดระยะยาว วิธีหนึ่งในการวางแผนคือการใช้การค้นหาต้นไม้บางชนิดเช่นการค้นหาต้นไม้ Monte Carlo (MCTS) หรือ - ซึ่งฉันสงสัยว่าสามารถใช้ได้เช่นกัน - สายพันธุ์ของการสุ่มสำรวจต้นไม้อย่างรวดเร็ว (RRT) ดูเช่นตัวแทนที่จินตนาการและแผน

ตัวแทนสามารถกลั่นผลลัพธ์จากการวางแผนล่วงหน้าไปสู่นโยบายที่เรียนรู้ซึ่งเรียกว่าการวนซ้ำของผู้เชี่ยวชาญ

รูปแบบนอกจากนี้ยังสามารถใช้ในการสร้างจำลองหรือ "คิด" สภาพแวดล้อมที่รัฐมีการปรับปรุงโดยใช้รูปแบบและให้ตัวแทนได้เรียนรู้ภายในของสภาพแวดล้อมที่เช่นในโลกรุ่น

ในสถานการณ์จริงหลายรูปแบบความจริงภาคพื้นดินของสภาพแวดล้อมไม่สามารถใช้ได้กับตัวแทน หากตัวแทนต้องการใช้แบบจำลองในกรณีนี้จะต้องเรียนรู้รูปแบบซึ่งอาจมีความท้าทายด้วยเหตุผลหลายประการ

อย่างไรก็ตามมีบางกรณีที่เอเจนต์ใช้โมเดลที่เป็นที่รู้จักอยู่แล้วดังนั้นจึงไม่จำเป็นต้องเรียนรู้โมเดลเช่นในAlphaZeroซึ่งโมเดลนั้นมาในรูปแบบของกฏของเกม


1

แม้ว่าจะมีคำตอบที่ดีหลายประการฉันต้องการเพิ่มย่อหน้านี้จากการเรียนรู้การเสริมแรง: คำนำหน้า 303 เพื่อให้เข้าใจถึงความแตกต่างทางจิตวิทยามากขึ้น

ความแตกต่างระหว่างอัลกอริธึมการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลองนั้นสอดคล้องกับนักจิตวิทยาที่แตกต่างซึ่งทำขึ้นระหว่างการควบคุมตามนิสัยและการควบคุมเป้าหมายตามรูปแบบพฤติกรรมที่เรียนรู้ นิสัยคือรูปแบบพฤติกรรมที่ถูกกระตุ้นโดยสิ่งเร้าที่เหมาะสมจากนั้นทำการแสดงมากขึ้นหรือน้อยลงโดยอัตโนมัติ พฤติกรรมมุ่งเป้าหมายตามที่นักจิตวิทยาใช้วลีนั้นมีจุดประสงค์ในแง่ที่ว่ามันถูกควบคุมโดยความรู้เกี่ยวกับคุณค่าของเป้าหมายและความสัมพันธ์ระหว่างการกระทำและผลที่ตามมา บางครั้งมีการกล่าวว่านิสัยถูกควบคุมโดยสิ่งเร้าที่มาก่อนในขณะที่พฤติกรรมที่นำไปสู่เป้าหมายนั้นถูกควบคุมโดยผลที่เกิดขึ้น (ดิกคินสัน, 1980, 1985) การควบคุมโดยมุ่งเป้าไปที่เป้าหมายนั้นมีข้อได้เปรียบที่สามารถเปลี่ยนแปลงพฤติกรรมของสัตว์ได้อย่างรวดเร็วเมื่อสภาพแวดล้อมเปลี่ยนวิธีการตอบสนองต่อการกระทำของสัตว์ ในขณะที่พฤติกรรมที่เป็นนิสัยตอบสนองอย่างรวดเร็วต่อการป้อนข้อมูลจากสภาพแวดล้อมที่คุ้นเคย แต่ก็ไม่สามารถปรับให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อมได้อย่างรวดเร็ว

มันจะไปจากที่นั่นและมีตัวอย่างที่ดีในภายหลัง

ฉันคิดว่าประเด็นหลักที่ไม่ได้อธิบายไว้เสมอในคำตอบอื่น ๆ ก็คือในแนวทางแบบฟรีคุณยังต้องการสภาพแวดล้อมบางอย่างเพื่อบอกคุณว่ารางวัลที่เกี่ยวข้องกับการกระทำของคุณคืออะไร ความแตกต่างใหญ่คือคุณไม่จำเป็นต้องเก็บข้อมูลใด ๆ เกี่ยวกับโมเดล คุณให้สภาพแวดล้อมการดำเนินการที่คุณเลือกปรับปรุงนโยบายโดยประมาณและคุณลืมมันไป ในอีกวิธีหนึ่งตามรูปแบบคุณจำเป็นต้องทราบประวัติการเปลี่ยนสถานะเช่นเดียวกับในการเขียนโปรแกรมแบบไดนามิกหรือคุณต้องสามารถคำนวณสถานะถัดไปที่เป็นไปได้ทั้งหมดและรางวัลที่เกี่ยวข้องจากสถานะปัจจุบัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.