ตัวอย่างชีวิตจริงของกระบวนการตัดสินใจของมาร์คอฟ


20

ฉันได้ดูวิดีโอการสอนมากมายและพวกเขาดูเหมือนกัน ตัวอย่างนี้สำหรับ: https://www.youtube.com/watch?v=ip4iSMRW5X4

พวกเขาอธิบายถึงรัฐการกระทำและความน่าจะเป็นที่ดี บุคคลนั้นอธิบายว่าใช้ได้ แต่ฉันก็ดูเหมือนจะไม่เข้าใจว่ามันจะใช้อะไรในชีวิตจริง ฉันยังไม่พบรายการใด ๆ ในตอนนี้ สิ่งที่ฉันเห็นบ่อยที่สุดคือหมากรุก

สามารถใช้ทำนายสิ่งต่างๆได้หรือไม่? ถ้าเป็นประเภทอะไร มันสามารถหารูปแบบในจำนวนข้อมูลที่ไม่ จำกัด ได้หรือไม่? อัลกอริทึมนี้สามารถทำอะไรให้ฉันได้บ้าง

โบนัส: มันรู้สึกเหมือนว่า MDP เกี่ยวข้องกับการได้รับจากรัฐหนึ่งไปอีกรัฐหนึ่งจริงหรือไม่?

คำตอบ:


28

กระบวนการตัดสินใจมาร์คอฟจริงจะทำอย่างไรกับไปจากรัฐหนึ่งไปยังอีกและส่วนใหญ่จะใช้สำหรับการวางแผนและการตัดสินใจ

ทฤษฎี

เพียงทำซ้ำทฤษฎีอย่างรวดเร็ว MDP คือ:

MDP=S,A,T,R,γ

โดยที่คือสถานะ , การกระทำ,ความน่าจะเป็นในการเปลี่ยนแปลง (เช่นความน่าจะเป็นจากรัฐหนึ่งไปสู่อีกรัฐหนึ่งให้ดำเนินการ), รางวัล (เป็นของรัฐและอาจเป็นไปได้ การกระทำ) และเป็นปัจจัยลดราคาที่ใช้เพื่อลดความสำคัญของรางวัลในอนาคตSATPr(s|s,a)Rγ

ดังนั้นในการใช้งานคุณจำเป็นต้องกำหนดไว้ล่วงหน้า:

  1. สหรัฐอเมริกา : เหล่านี้สามารถดูตัวอย่างตารางแผนที่ในหุ่นยนต์หรือตัวอย่างเช่นการเปิดประตูและประตูปิด
  2. การกระทำ : ชุดของการกระทำที่แน่นอนเช่นไปทางทิศเหนือทิศใต้ทิศตะวันออก ฯลฯ สำหรับหุ่นยนต์หรือเปิดและปิดประตู
  3. ความน่าจะเป็นในการเปลี่ยนแปลง : ความน่าจะเป็นที่จะเกิดจากรัฐหนึ่งไปสู่อีกรัฐหนึ่งซึ่งได้รับการกระทำ ตัวอย่างเช่นสิ่งที่น่าจะเป็นของการเปิดประตูถ้าการกระทำที่เป็นแบบเปิด ในโลกที่สมบูรณ์แบบในภายหลังอาจเป็น 1.0 แต่ถ้าเป็นหุ่นยนต์มันอาจล้มเหลวในการจัดการลูกบิดประตูได้อย่างถูกต้อง อีกตัวอย่างหนึ่งในกรณีของหุ่นยนต์เคลื่อนที่คือแอคชั่นทางทิศเหนือซึ่งโดยส่วนใหญ่แล้วจะนำมาไว้ในกริดเซลล์ทางเหนือของมัน แต่ในบางกรณีอาจมีการเคลื่อนไหวมากเกินไปและไปถึงเซลล์ถัดไป
  4. รางวัล : สิ่งเหล่านี้ใช้เพื่อเป็นแนวทางในการวางแผน ในกรณีของตัวอย่างกริดเราอาจต้องการไปที่เซลล์หนึ่งและรางวัลจะสูงขึ้นหากเราเข้าใกล้ ในกรณีของตัวอย่างประตูประตูเปิดอาจให้รางวัลสูง

เมื่อกำหนด MDP แล้วจะสามารถเรียนรู้นโยบายได้โดยการทำค่าการทำซ้ำหรือการทำซ้ำนโยบายซึ่งจะคำนวณรางวัลที่คาดหวังสำหรับแต่ละรัฐ นโยบายจากนั้นให้ต่อรัฐที่ดีที่สุด (รับรุ่น MDP) ในการดำเนินการที่จะทำ

โดยสรุป MDP มีประโยชน์เมื่อคุณต้องการวางแผนลำดับของการกระทำที่มีประสิทธิภาพซึ่งการกระทำของคุณอาจไม่ได้ผล 100% เสมอไป

คำถามของคุณ

สามารถใช้ทำนายสิ่งต่างๆได้หรือไม่?

ฉันจะเรียกมันว่าการวางแผนไม่ทำนายเช่นการถดถอยเช่น

ถ้าเป็นประเภทอะไร

ดูตัวอย่าง

มันสามารถหารูปแบบของข้อมูลจำนวนมหาศาลได้หรือไม่?

MDPs จะใช้ในการทำเสริมสร้างการเรียนรู้เพื่อหารูปแบบที่คุณต้องการUnsupervised การเรียนรู้ และไม่คุณไม่สามารถจัดการข้อมูลได้ไม่ จำกัด จำนวน ที่จริงแล้วความซับซ้อนในการค้นหานโยบายเพิ่มขึ้นอย่างทวีคูณด้วยจำนวนรัฐ.|S|

อัลกอริทึมนี้สามารถทำอะไรให้ฉันได้บ้าง

ดูตัวอย่าง

ตัวอย่างการใช้งานของ MDP

  • White, DJ (1993)กล่าวถึงรายการใหญ่:
    • การเก็บเกี่ยว: จำนวนสมาชิกของประชากรจะต้องถูกทิ้งไว้เพื่อการผสมพันธุ์
    • เกษตรกรรม: พืชจะขึ้นอยู่กับสภาพอากาศและสภาพดิน
    • แหล่งน้ำ: รักษาระดับน้ำให้ถูกต้องที่อ่างเก็บน้ำ
    • การตรวจสอบการบำรุงรักษาและการซ่อมแซม: เมื่อใดที่จะเปลี่ยน / ตรวจสอบตามอายุสภาพ ฯลฯ
    • การจัดซื้อและการผลิต: ปริมาณการผลิตตามความต้องการ
    • คิว: ลดเวลาในการรอ
    • ...
  • การเงิน: การตัดสินใจว่าจะลงทุนในหุ้นอย่างไร
  • หุ่นยนต์:
    • ระบบการสนทนาโต้ตอบกับคน
    • บาร์เทนเดหุ่นยนต์
    • สำรวจหุ่นยนต์สำหรับการนำทาง
    • ..

และยังมีอีกหลายรุ่น รูปแบบที่น่าสนใจยิ่งกว่านั้นคือกระบวนการตัดสินใจมาร์คอฟเจียนที่สังเกตเห็นได้บางส่วนซึ่งรัฐไม่สามารถมองเห็นได้อย่างสมบูรณ์และแทนที่จะใช้การสังเกตเพื่อให้ได้แนวคิดของสถานะปัจจุบัน แต่นี่ไม่ใช่ขอบเขตของคำถามนี้

ข้อมูลเพิ่มเติม

กระบวนการสุ่มคือMarkovian (หรือมีคุณสมบัติมาร์คอฟ) หากการกระจายความน่าจะเป็นแบบมีเงื่อนไขของรัฐในอนาคตขึ้นอยู่กับสถานะปัจจุบันเท่านั้นและไม่ได้อยู่ในสถานะก่อนหน้านี้


2
นี่อาจเป็นคำตอบที่ชัดเจนที่สุดที่ฉันเคยเห็นในการตรวจสอบข้าม
Hidden Markov Model

โอกาสใดที่คุณสามารถแก้ไขลิงก์ได้? บางคนดูไม่ดีหรือล้าสมัย
วิทยาศาสตร์คอมพิวเตอร์

ดังนั้นกระบวนการใด ๆ ที่มีstates, actions, transition probabilitiesและrewardsกำหนดจะถูกเรียกว่าเป็นมาร์คอฟ?
Suhail Gupta
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.