รูปแบบกราฟิกที่น่าจะเป็น (PGM)เป็นแบบกราฟสำหรับการสร้างแบบจำลองดานแจกแจงความน่าจะร่วมกันและ (ใน) ความสัมพันธ์ที่พึ่งพากว่าชุดของตัวแปรสุ่ม PGM เรียกว่าเครือข่ายแบบเบย์เมื่อมีการนำกราฟพื้นฐานไปใช้และฟิลด์สุ่มของ Markov network / Markovเมื่อกราฟพื้นฐานไม่ได้ถูกบอกทิศทาง โดยทั่วไปคุณใช้อิทธิพลในอดีตเพื่อจำลองความน่าจะเป็นระหว่างตัวแปรที่มีทิศทางที่ชัดเจนมิฉะนั้นคุณจะใช้ตัวแปรหลัง ในทั้งสองเวอร์ชันของ PGMs การไม่มีขอบในกราฟที่เกี่ยวข้องแสดงถึงความเป็นอิสระตามเงื่อนไขในการแจกแจงแบบเข้ารหัสแม้ว่าความหมายที่แท้จริงของพวกเขาจะแตกต่างกัน "การมาร์คอฟ" ใน "มาร์คอฟเครือข่าย" หมายถึงความคิดทั่วไปของความเป็นอิสระตามเงื่อนไขเข้ารหัสโดย PGMs ว่าชุดของตัวแปรสุ่มxAเป็นอิสระของคนอื่น ๆxCรับชุดของบางคน "ที่สำคัญ" ตัวแปรxB (ชื่อทางเทคนิค เป็นผ้าห่มมาร์คอฟ ) คือp(xA|xB,xC)=p(xA|xB) )
กระบวนการมาร์คอฟเป็นกระบวนการสุ่มใด ๆ{Xt}ที่ตรงกับมาร์คอฟอสังหาริมทรัพย์ ที่นี่เน้นอยู่ในคอลเลกชันของ (เกลา) ตัวแปรสุ่มX1,X2,X3,...มักจะคิดว่าเป็นเรื่องการจัดทำดัชนีตามเวลาที่ตอบสนองรูปแบบเฉพาะของความเป็นอิสระมีเงื่อนไขคือ "อนาคตเป็นอิสระจากอดีตที่ผ่านมาได้รับในปัจจุบัน" พูดประมาณp(xt+1|xt,xt−1,...,x1)=p(xt+1|xt) ) นี้เป็นกรณีพิเศษของ 'มาร์คอฟ' ความคิดที่กำหนดโดย PGMs: เพียงแค่ใช้ชุด = { T + 1 } , B = { T }และใช้ Cที่จะเป็นส่วนหนึ่งของใด ๆ { T - 1 , T - 2 , . . . , 1และเรียกใช้คำสั่งก่อนหน้าA={t+1},B={t}C{t−1,t−2,...,1}p(xA|xB,xC)=p(xA|xB) ) จากนี้เราจะเห็นว่าผ้าห่มมาร์คอฟของตัวแปรXt+1เป็นบรรพบุรุษของXtที
ดังนั้นคุณจึงสามารถแสดงกระบวนการมาร์คอฟด้วยเครือข่ายแบบเบย์ในฐานะเชิงเส้นเชิงเส้นที่จัดทำดัชนีตามเวลา (เพื่อความง่ายเราพิจารณาเฉพาะกรณีของเวลา / รัฐที่นี่โดยภาพจากหนังสือ PRML ของบิชอป):
เครือข่ายแบบเบส์นี้เรียกว่าเครือข่ายแบบไดนามิกคชกรรม เนื่องจากเป็นเครือข่ายแบบเบย์ (ดังนั้น PGM) จึงสามารถใช้อัลกอริทึม PGM มาตรฐานสำหรับการอนุมานความน่าจะเป็น (เช่นอัลกอริธึมผลรวมผลิตภัณฑ์ซึ่งสมการแชปแมน − Kolmogorov เป็นตัวแทนกรณีพิเศษ) และการประมาณค่าพารามิเตอร์ ลงไปจนถึงการนับง่าย ๆ ) บนโซ่ ตัวอย่างการใช้งานของสิ่งนี้คือรูปแบบภาษา HMM และ n-gram
บ่อยครั้งที่คุณเห็นแผนภาพของห่วงโซ่มาร์คอฟเช่นนี้
p(Xt|Xt−1) of the chain PGM. This Markov chain only encodes the state of the world at each time stamp as a single random variable (Mood); what if we want to capture other interacting aspects of the world (like Health, and Income of some person), and treat Xt as a vector of random variables (X(1)t,...X(D)t)? This is where PGMs (in particular, dynamic Bayesian networks) can help. We can model complex distributions for p(X(1)t,...X(D)t|X(1)t−1,...X(D)t−1)
using a conditional Bayesian network typically called a 2TBN (2-time-slice Bayesian network), which can be thought of as a fancier version of the simple chain Bayesian network.
TL;DR: a Bayesian network is a kind of PGM (probabilistic graphical model) that uses a directed (acyclic) graph to represent a factorized probability distribution and associated conditional independence over a set of variables. A Markov process is a stochastic process (typically thought of as a collection of random variables) with the property of "the future being independent of the past given the present"; the emphasis is more on studying the evolution of the the single "template" random variable Xt across time (often as t→∞). A (scalar) Markov process defines the specific conditional independence property p(xt+1|xt,xt−1,...,x1)=p(xt+1|xt) and therefore can be trivially represented by a chain Bayesian network, whereas dynamic Bayesian networks can exploit the full representational power of PGMs to model interactions among multiple random variables (i.e., random vectors) across time; a great reference on this is Daphne Koller's PGM book chapter 6.