ความแตกต่างที่ใช้งานง่ายระหว่างโมเดล Markov ที่ซ่อนอยู่และฟิลด์สุ่มแบบมีเงื่อนไข


33

ฉันเข้าใจว่า HMM (โมเดลมาร์กมาร์คอฟ) เป็นรุ่นทั่วไปและ CRF เป็นรุ่นที่จำแนกได้ ฉันยังเข้าใจว่า CRFs (เขตสุ่มแบบมีเงื่อนไข) ได้รับการออกแบบและใช้งานอย่างไร สิ่งที่ฉันไม่เข้าใจก็คือพวกเขาแตกต่างจาก HMM อย่างไร ฉันอ่านว่าในกรณีของ HMM เราสามารถจำลองสถานะต่อไปของเราบนโหนดก่อนหน้าโหนดปัจจุบันและความน่าจะเป็นการเปลี่ยนแปลง แต่ในกรณีของ CRF เราสามารถทำสิ่งนี้ได้และสามารถเชื่อมต่อจำนวนโหนดด้วยกันเพื่อสร้างการอ้างอิง หรือบริบท ฉันแก้ไขที่นี่หรือไม่


2
คุณควรสะกด HMM และ CRF คำย่ออาจเป็นเรื่องยากโดยเฉพาะอย่างยิ่งสำหรับผู้ที่ไม่ได้พูดภาษาอังกฤษ
Peter Flom - Reinstate Monica

ผู้อ่านความคิดเห็นนี้อาจไม่ชอบคำตอบนี้ แต่ถ้าคุณจำเป็นต้องรู้คำตอบนี้จริงๆวิธีที่ดีที่สุดที่จะเข้าใจคือการอ่านเอกสารด้วยตนเองและสร้างความคิดเห็นของคุณเอง นี้จะใช้เวลามากเวลา แต่มันเป็นวิธีเดียวที่จะรู้อย่างแท้จริงสิ่งที่เกิดขึ้นและเพื่อให้สามารถที่จะบอกว่าคนอื่น ๆ จะบอกคุณความจริง
ตรงไปตรงมา

คำตอบ:


23

จากการแนะนำของ McCallum ถึง CRF :

ป้อนคำอธิบายรูปภาพที่นี่


4
คุณจะสนใจที่จะเพิ่มสัญชาตญาณ / ความเข้าใจ / ความเข้าใจของคุณเอง - แม้ว่าจะเป็นเพียงการชี้ให้เห็นถึงไฮไลท์ (จากมุมมองของคุณ)?
javadba

10

"เขตข้อมูลสุ่มแบบมีเงื่อนไขสามารถเข้าใจได้ว่าเป็นส่วนขยายตามลำดับสำหรับรุ่นเอนโทรปีสูงสุด" ประโยคนี้มาจากรายงานทางเทคนิคที่เกี่ยวข้องกับ "แบบจำลองความน่าจะเป็นแบบคลาสสิกและฟิลด์สุ่มแบบมีเงื่อนไข"

มันน่าจะเป็นการอ่านที่ดีที่สุดสำหรับหัวข้อต่าง ๆ เช่น HMM, CRF และ Maximum Entropy

PS: รูปที่ 1 ในลิงค์ให้เปรียบเทียบที่ดีมากระหว่างพวกเขา

ความนับถือ,


5

ในฐานะที่เป็นหมายเหตุด้านข้าง: ฉันจะขอให้คุณรักษารายการนี้ (ไม่สมบูรณ์) เพื่อให้ผู้ใช้ที่สนใจมีทรัพยากรที่สามารถเข้าถึงได้ง่าย สภาพที่เป็นอยู่ยังคงต้องการให้บุคคลตรวจสอบเอกสารจำนวนมากและ / หรือรายงานทางเทคนิคที่ยาวนานเพื่อค้นหาคำตอบที่เกี่ยวข้องกับ CRF และ HMM

นอกจากคำตอบที่ดีแล้วอื่น ๆ แล้วฉันต้องการชี้ให้เห็นคุณสมบัติที่โดดเด่นที่ฉันพบว่าสำคัญที่สุด:

  • HMM เป็นโมเดลเชิงกำเนิดซึ่งพยายามจำลองการกระจายข้อต่อ P (y, x) ดังนั้นรูปแบบดังกล่าวพยายามที่จะรูปแบบการกระจายของข้อมูล P (x) ซึ่งในทางกลับกันอาจกำหนดคุณลักษณะของขึ้นสูง บางครั้งการพึ่งพาเหล่านี้บางครั้งก็ไม่เป็นที่พึงปรารถนา (เช่นในการติดแท็ก POS ของ NLP) และบ่อยครั้งที่ยากต่อการสร้างโมเดล / การคำนวณ
  • CRFs เป็นแบบจำแนกซึ่งรุ่น P (y | x) เช่นนี้พวกเขาไม่จำเป็นต้องมีรูปแบบชัดเจน P (x) และขึ้นอยู่กับงานจึงอาจมอบประสิทธิภาพการทำงานในส่วนหนึ่งเพราะพวกเขาต้องการพารามิเตอร์น้อยลงที่จะเรียนรู้เช่นในการตั้งค่าเมื่อสร้างตัวอย่างที่ไม่ได้ต้องการ Discriminative model มักจะเหมาะสมกว่าเมื่อใช้คุณลักษณะที่ซับซ้อนและทับซ้อนกัน (เนื่องจากการสร้างแบบจำลองการกระจายของพวกเขามักจะยาก)
  • หากคุณมีคุณสมบัติที่ทับซ้อนกัน / ซับซ้อน (เช่นในการติดแท็ก POS) คุณอาจต้องการพิจารณา CRF เนื่องจากสามารถสร้างแบบจำลองเหล่านี้ด้วยฟังก์ชั่นฟีเจอร์ของพวกเขา(โปรดจำไว้ว่าโดยปกติแล้วคุณจะต้อง
  • Yเสื้อxเสื้อaพี(xเสื้อ-1)
  • นอกจากนี้ยังทราบความแตกต่างระหว่างระหว่างเส้นและ CRFs Linear CRFs เช่น HMM กำหนดเฉพาะการพึ่งพาองค์ประกอบก่อนหน้าในขณะที่ CRF ทั่วไปคุณสามารถกำหนดการพึ่งพาองค์ประกอบโดยพลการ (เช่นองค์ประกอบแรกมีการเข้าถึงในตอนท้ายของลำดับ)
  • ในทางปฏิบัติคุณจะเห็น CRF เชิงเส้นบ่อยกว่า CRF ทั่วไปเนื่องจากพวกเขามักจะอนุญาตให้อนุมานได้ง่ายขึ้น โดยทั่วไปการอนุมาน CRF มักจะไม่ยอมจำนนทำให้คุณมีทางเลือกเพียงข้อเดียวที่สามารถอนุมานได้โดยประมาณ)
  • การอนุมานใน CRF เชิงเส้นทำได้ด้วยอัลกอริทึม Viterbiเช่นเดียวกับใน HMM
  • โดยทั่วไปแล้วทั้ง HMMs และ CRF เชิงเส้นจะได้รับการฝึกฝนด้วยเทคนิคความน่าจะเป็นสูงสุดเช่นการไล่ระดับสีวิธี Quasi-Newton หรือสำหรับ HMM ที่มีเทคนิค Expectation Maximization (อัลกอริทึม Baum-Welch) หากปัญหาการปรับให้เหมาะสมเป็นนูนวิธีการเหล่านี้ทั้งหมดให้ชุดพารามิเตอร์ที่ดีที่สุด
  • ตาม [1] ปัญหาการปรับให้เหมาะสมสำหรับการเรียนรู้พารามิเตอร์ CRF เชิงเส้นจะนูนถ้าโหนดทั้งหมดมีการแจกแจงแบบครอบครัวชี้แจงและสังเกตได้ในระหว่างการฝึกอบรม

[1] ซัตตัน, ชาร์ลส์; McCallum, Andrew (2010), "บทนำสู่ฟิลด์สุ่มแบบมีเงื่อนไข"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.