โมเดล Markov ที่ซ่อนอยู่และอัลกอริทึมการเพิ่มความคาดหวังสูงสุด

10

ใครสามารถอธิบายได้ว่าแบบจำลองของมาร์คอฟที่ซ่อนอยู่เกี่ยวข้องกับการเพิ่มความคาดหวังสูงสุดได้อย่างไร ฉันได้ผ่านการเชื่อมโยงมากมาย แต่ไม่สามารถมาพร้อมกับมุมมองที่ชัดเจน

ขอบคุณ!

markov-process expectation-maximization hidden-markov-model

— thchand
แหล่งที่มา

12

อัลกอริทึม EM (การเพิ่มความคาดหวัง) เป็นอัลกอริธึมทั่วไปสำหรับการปรับให้เหมาะสมที่สุดของฟังก์ชันความน่าจะเป็นในกรณีที่โมเดลถูกระบุความน่าจะเป็นในแง่ขององค์ประกอบที่สังเกตและส่วนประกอบที่แฝงอยู่ HMM (โมเดลมาร์คอฟที่ซ่อนอยู่) เป็นแบบจำลองของแบบฟอร์มนี้เนื่องจากมีองค์ประกอบที่ไม่ได้ตรวจสอบสถานะที่ซ่อนอยู่และการสังเกตที่เกิดขึ้นจริงมักเรียกว่าการปล่อยมลพิษในคำศัพท์ HMM ดังนั้น HMM จะสร้างคลาสของโมเดลที่อัลกอริทึม EM มีประโยชน์

$(X,Y)$ $p_{\theta}(x,y)$ $\theta$ $X = x$

L_{x} (θ) = \underset{Y}{Σ} {พี}_{θ} (x, Y) .

$L_x(\theta) = \sum_{y} p_{\theta}(x,y).$

θ

$\theta$

$x$ $\theta$
ขั้นตอน Mซึ่งเป็นสูงสุด

EM-algorithm เหมาะสมที่สุดหากทั้งสองขั้นตอนข้างต้นสามารถนำไปใช้อย่างมีประสิทธิภาพในการคำนวณเช่นเมื่อเราปิดนิพจน์แบบฟอร์มสำหรับการคาดการณ์ตามเงื่อนไขและการขยายให้ใหญ่สุด

ประวัติศาสตร์อัลกอริธึม EM ทั่วไปให้เครดิตแก่Dempster, Laird และ Rubinซึ่งได้รับการพิสูจน์ในบทความของพวกเขาในปี 1977 เหนือสิ่งอื่นใดอัลกอริทึมนำไปสู่ลำดับของพารามิเตอร์ที่มีค่าความน่าจะเป็นที่เพิ่มขึ้นซ้ำซาก พวกเขายังประกาศเกียรติคุณคำว่า "EM-algorithm" สิ่งที่น่าสนใจ EM-algorithm สำหรับ HMM ได้อธิบายไว้แล้วในปี 1970 โดยBaum และคณะ และมักเรียกกันว่าอัลกอริทึมBaum-Welchในวรรณคดี HMM (ฉันไม่ทราบว่าสิ่งที่ Welch ทำ ... )

— NRH
แหล่งที่มา

3

Welch คิดค้นสิ่งที่เรียกว่าอัลกอริทึม Baum-Welch (เขาเรียกมันว่า "ส่วนที่ง่าย"); Baum พิสูจน์ทางคณิตศาสตร์ว่าอัลกอริทึมใช้งานได้ ("ส่วนที่ยาก") ดูรายละเอียดที่แน่นอนแน่นอน. cs.tamu.edu/rgutier/cpsc689_s07/

— Mikhail Korobov

@ MikailKorobov ขอบคุณสำหรับการอ้างอิงข้อมูลนี้

— NRH

2

Expectation Maximization เป็นวิธีการวนซ้ำที่ใช้ในการอนุมานเชิงสถิติในรูปแบบสถิติเชิงกำเนิดที่หลากหลายเช่นส่วนผสมของ Gaussians และแบบจำลองประเภทเครือข่ายแบบเบย์อื่น ๆ การเชื่อมต่อเพียงอย่างเดียวคือ HMM นั้นเป็นเครือข่ายแบบเบย์ด้วย แต่อาจจะไม่ใช้ EM กับ HMM เพราะมีอัลกอริทึมที่แน่นอนสำหรับการอนุมานภายใน HMM ที่เรียกว่าอัลกอริทึม Viterbi ดังนั้นแม้ว่าจะสามารถใช้ EM เพื่อทำการอนุมานบน HMM ได้ แต่คุณก็ไม่ได้เพราะไม่มีเหตุผล

— วิลเลียม
แหล่งที่มา

4

สิ่งนี้ไม่ถูกต้องทั้งหมดเนื่องจากคุณรวม "การอนุมาน" สองแบบที่แตกต่างกัน EM เป็นอัลกอริทึมสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จัก Viterbi เป็นอัลกอริทึมสำหรับการคำนวณลำดับที่น่าจะเป็นที่สุดของสถานะที่ซ่อน แน่นอนคุณใช้ EM สำหรับ HMM สำหรับการประมาณค่าพารามิเตอร์ ฉันได้ให้รายละเอียดเพิ่มเติมเกี่ยวกับ EM-algorithm พร้อมการอ้างอิงทางประวัติศาสตร์เพื่ออธิบายความสัมพันธ์ระหว่าง HMM และ EM ในคำตอบของฉัน

— NRH

0

ใน HMM เราพยายามประมาณสามพารามิเตอร์หลัก:

$K$ $K$
$K\times K$
$K\times N$ $N$

ตอนนี้ส่วน EM มาเมื่อคุณพยายามที่จะประเมินปริมาณ / พารามิเตอร์ที่ระบุไว้ข้างต้น เริ่มต้นด้วยการคาดเดาแบบสุ่มความน่าจะเป็นของการสังเกตจะถูกประเมินและพารามิเตอร์จะถูกปรับซ้ำ ๆ จนกว่าเราจะได้รับโอกาสสูงสุด ดังนั้นผ่านทาง HMM เราได้จำลองกระบวนการบางอย่างและเราจำเป็นต้องแนะนำพารามิเตอร์บางอย่าง ในการประมาณค่าพารามิเตอร์ EM จะแสดงผล

นี่เป็นคำตอบสั้น ๆ การใช้ EM จำเป็นต้องมีปัญหาย่อยอื่น ๆ เพื่อแก้ไขผ่านเทคนิคต่างๆ สำหรับการทำความเข้าใจอย่างลึกซึ้งขอแนะนำอย่างยิ่งให้ใช้บทแนะนำคลาสสิกของ Rabiner

— Riaz Khan
แหล่งที่มา