กระบวนการตัดสินใจมาร์คอฟจริงจะทำอย่างไรกับไปจากรัฐหนึ่งไปยังอีกและส่วนใหญ่จะใช้สำหรับการวางแผนและการตัดสินใจ
ทฤษฎี
เพียงทำซ้ำทฤษฎีอย่างรวดเร็ว MDP คือ:
MDP=⟨S,A,T,R,γ⟩
โดยที่คือสถานะ , การกระทำ,ความน่าจะเป็นในการเปลี่ยนแปลง (เช่นความน่าจะเป็นจากรัฐหนึ่งไปสู่อีกรัฐหนึ่งให้ดำเนินการ), รางวัล (เป็นของรัฐและอาจเป็นไปได้ การกระทำ) และเป็นปัจจัยลดราคาที่ใช้เพื่อลดความสำคัญของรางวัลในอนาคตSATPr(s′|s,a)Rγ
ดังนั้นในการใช้งานคุณจำเป็นต้องกำหนดไว้ล่วงหน้า:
- สหรัฐอเมริกา : เหล่านี้สามารถดูตัวอย่างตารางแผนที่ในหุ่นยนต์หรือตัวอย่างเช่นการเปิดประตูและประตูปิด
- การกระทำ : ชุดของการกระทำที่แน่นอนเช่นไปทางทิศเหนือทิศใต้ทิศตะวันออก ฯลฯ สำหรับหุ่นยนต์หรือเปิดและปิดประตู
- ความน่าจะเป็นในการเปลี่ยนแปลง : ความน่าจะเป็นที่จะเกิดจากรัฐหนึ่งไปสู่อีกรัฐหนึ่งซึ่งได้รับการกระทำ ตัวอย่างเช่นสิ่งที่น่าจะเป็นของการเปิดประตูถ้าการกระทำที่เป็นแบบเปิด ในโลกที่สมบูรณ์แบบในภายหลังอาจเป็น 1.0 แต่ถ้าเป็นหุ่นยนต์มันอาจล้มเหลวในการจัดการลูกบิดประตูได้อย่างถูกต้อง อีกตัวอย่างหนึ่งในกรณีของหุ่นยนต์เคลื่อนที่คือแอคชั่นทางทิศเหนือซึ่งโดยส่วนใหญ่แล้วจะนำมาไว้ในกริดเซลล์ทางเหนือของมัน แต่ในบางกรณีอาจมีการเคลื่อนไหวมากเกินไปและไปถึงเซลล์ถัดไป
- รางวัล : สิ่งเหล่านี้ใช้เพื่อเป็นแนวทางในการวางแผน ในกรณีของตัวอย่างกริดเราอาจต้องการไปที่เซลล์หนึ่งและรางวัลจะสูงขึ้นหากเราเข้าใกล้ ในกรณีของตัวอย่างประตูประตูเปิดอาจให้รางวัลสูง
เมื่อกำหนด MDP แล้วจะสามารถเรียนรู้นโยบายได้โดยการทำค่าการทำซ้ำหรือการทำซ้ำนโยบายซึ่งจะคำนวณรางวัลที่คาดหวังสำหรับแต่ละรัฐ นโยบายจากนั้นให้ต่อรัฐที่ดีที่สุด (รับรุ่น MDP) ในการดำเนินการที่จะทำ
โดยสรุป MDP มีประโยชน์เมื่อคุณต้องการวางแผนลำดับของการกระทำที่มีประสิทธิภาพซึ่งการกระทำของคุณอาจไม่ได้ผล 100% เสมอไป
คำถามของคุณ
สามารถใช้ทำนายสิ่งต่างๆได้หรือไม่?
ฉันจะเรียกมันว่าการวางแผนไม่ทำนายเช่นการถดถอยเช่น
ถ้าเป็นประเภทอะไร
ดูตัวอย่าง
มันสามารถหารูปแบบของข้อมูลจำนวนมหาศาลได้หรือไม่?
MDPs จะใช้ในการทำเสริมสร้างการเรียนรู้เพื่อหารูปแบบที่คุณต้องการUnsupervised การเรียนรู้ และไม่คุณไม่สามารถจัดการข้อมูลได้ไม่ จำกัด จำนวน ที่จริงแล้วความซับซ้อนในการค้นหานโยบายเพิ่มขึ้นอย่างทวีคูณด้วยจำนวนรัฐ.|S|
อัลกอริทึมนี้สามารถทำอะไรให้ฉันได้บ้าง
ดูตัวอย่าง
ตัวอย่างการใช้งานของ MDP
- White, DJ (1993)กล่าวถึงรายการใหญ่:
- การเก็บเกี่ยว: จำนวนสมาชิกของประชากรจะต้องถูกทิ้งไว้เพื่อการผสมพันธุ์
- เกษตรกรรม: พืชจะขึ้นอยู่กับสภาพอากาศและสภาพดิน
- แหล่งน้ำ: รักษาระดับน้ำให้ถูกต้องที่อ่างเก็บน้ำ
- การตรวจสอบการบำรุงรักษาและการซ่อมแซม: เมื่อใดที่จะเปลี่ยน / ตรวจสอบตามอายุสภาพ ฯลฯ
- การจัดซื้อและการผลิต: ปริมาณการผลิตตามความต้องการ
- คิว: ลดเวลาในการรอ
- ...
- การเงิน: การตัดสินใจว่าจะลงทุนในหุ้นอย่างไร
- หุ่นยนต์:
- ระบบการสนทนาโต้ตอบกับคน
- บาร์เทนเดหุ่นยนต์
- สำรวจหุ่นยนต์สำหรับการนำทาง
- ..
และยังมีอีกหลายรุ่น รูปแบบที่น่าสนใจยิ่งกว่านั้นคือกระบวนการตัดสินใจมาร์คอฟเจียนที่สังเกตเห็นได้บางส่วนซึ่งรัฐไม่สามารถมองเห็นได้อย่างสมบูรณ์และแทนที่จะใช้การสังเกตเพื่อให้ได้แนวคิดของสถานะปัจจุบัน แต่นี่ไม่ใช่ขอบเขตของคำถามนี้
ข้อมูลเพิ่มเติม
กระบวนการสุ่มคือMarkovian (หรือมีคุณสมบัติมาร์คอฟ) หากการกระจายความน่าจะเป็นแบบมีเงื่อนไขของรัฐในอนาคตขึ้นอยู่กับสถานะปัจจุบันเท่านั้นและไม่ได้อยู่ในสถานะก่อนหน้านี้