ความสัมพันธ์ระหว่างทฤษฎีเกมกับการเรียนรู้การเสริมกำลังคืออะไร?


12

ฉันสนใจ(ลึก) เสริมสร้างการเรียนรู้ (RL) ก่อนลงดำน้ำในสาขานี้ฉันควรเรียนในGame Theory (GT)หรือไม่?

วิธีGTและRLเกี่ยวข้อง?


2
พวกมันเกี่ยวพันกันอย่างใกล้ชิดเท่ากับค้อนและวิปปิ้งครีม คุณอาจพบปัญหาที่คุณสามารถใช้ทั้งสองอย่างได้ แต่ไม่ใช่ปัญหาทั่วไป
Don Reba

4
@ DonReba ไม่เป็นไปตามนักวิจัยที่มีชื่อเสียงสองคนในการเรียนรู้การเสริมแรง: udacity.com/course/…ฉันคิดว่าทฤษฎีเกมจะบอกคุณว่าอะไรคือนโยบายที่เหมาะสมที่สุดในขณะที่ RL บอกคุณว่าตัวแทนสามารถเรียนรู้นโยบายที่เหมาะสมหรือดีที่สุดได้อย่างไร
Kiuhnm

3
@ DonReba บางทีในแง่ของเนื้อหาปกติที่สอนในพวกเขา อย่างไรก็ตามวัตถุประสงค์ของทั้งสองฟิลด์นั้นไม่แตกต่างกันมากนัก การเรียนรู้การเสริมแรงอาจถูกมองว่าเป็นเกมของข้อมูลที่ไม่สมบูรณ์ซึ่งมักจะเป็นสำหรับผู้เล่นหนึ่งคน หรือเป็นเกมที่มีผู้เล่นสองคนซึ่งผู้เล่นคนอื่นเป็นไปตามกฎที่คุณต้องการค้นพบ
คาดคะเน

1
นี่คือการศึกษา :)
Don Reba

คำตอบ:


12

ในการเสริมการเรียนรู้ (RL) เป็นเรื่องปกติที่จะจินตนาการถึงกระบวนการตัดสินใจมาร์คอฟ (MDP) พื้นฐาน จากนั้นเป้าหมายของ RL คือการเรียนรู้นโยบายที่ดีสำหรับ MDP ซึ่งมักระบุเพียงบางส่วนเท่านั้น MDP สามารถมีวัตถุประสงค์ที่แตกต่างกันได้เช่นยอดรวมค่าเฉลี่ยหรือรางวัลลดราคาโดยที่ส่วนลดที่ได้รับเป็นข้อสันนิษฐานที่พบบ่อยที่สุดสำหรับ RL มีการขยายการเรียนรู้ของ MDP ที่ดีต่อผู้เล่นสองคน (เช่นเกม) การตั้งค่า; เห็นเช่น

Filar, Jerzy และ Koos Vrieze กระบวนการตัดสินใจของมาร์คอฟที่สามารถแข่งขันได้ Springer Science & Business Media, 2012

มีทฤษฎีพื้นฐานที่ใช้ร่วมกันโดย MDPs และส่วนขยายของพวกเขาไปยังเกมสองผู้เล่น (zero-sum) รวมถึงเช่นทฤษฎีบทจุดคงที่ Banach, การวนซ้ำของค่า การเชื่อมต่ออย่างใกล้ชิดระหว่าง MDP (และ RL) และประเภทของเกมเฉพาะเหล่านี้:

  • คุณสามารถเรียนรู้เกี่ยวกับ RL (และ MDP) ได้โดยตรงโดยไม่ต้องมี GT เป็นข้อกำหนดเบื้องต้น
  • อย่างไรก็ตามคุณจะไม่ได้เรียนรู้เกี่ยวกับสิ่งนี้ในหลักสูตร GT ส่วนใหญ่ (ซึ่งโดยทั่วไปจะเน้นไปที่เช่นรูปแบบเชิงกลยุทธ์รูปแบบที่ครอบคลุมและเกมที่เล่นซ้ำ แต่ไม่ใช่เกมที่ไม่มีที่สิ้นสุดของรัฐที่ทำให้ MDP ทั่วไป)

6

ทฤษฎีเกมค่อนข้างมีส่วนร่วมในบริบทของการเรียนรู้การเสริมแรงแบบหลายตัวแทน (MARL)

ลองดูที่เกมสุ่มหรืออ่านบทความการวิเคราะห์ Stochastic ทฤษฎีเกมสำหรับ Multiagent เสริมสร้างการเรียนรู้

ฉันไม่เห็นว่า GT เป็นข้อกำหนดเบื้องต้นสำหรับ RL อย่างไรก็ตามมันให้ส่วนขยายที่ดีกับตัวพิมพ์หลายตัว


0

RL: เอเจนต์เดียวได้รับการฝึกฝนให้แก้ปัญหาการตัดสินใจมาร์คอฟ (MDPS) GT: เจ้าหน้าที่สองคนผ่านการฝึกอบรมเพื่อแก้ปัญหาเกม การเรียนรู้การเสริมแรงแบบหลายเอเจนต์ (MARL) สามารถใช้แก้ปัญหาสำหรับเกมสุ่ม

หากคุณสนใจแอปพลิเคชันตัวแทนเดียวของ RL ในการเรียนรู้อย่างลึกซึ้งคุณไม่จำเป็นต้องไปเรียนหลักสูตร GT ใด ๆ สำหรับตัวแทนสองคนขึ้นไปคุณอาจจำเป็นต้องรู้เทคนิคของเกมในทางทฤษฎี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.