ตัวอย่างการประมาณหลังสูงสุด


11

ฉันได้อ่านเกี่ยวกับการประมาณความเป็นไปได้สูงสุดและการประมาณหลังสูงสุดและจนถึงตอนนี้ฉันได้พบตัวอย่างที่เป็นรูปธรรมเท่านั้นด้วยการประมาณความเป็นไปได้สูงสุด ฉันได้พบตัวอย่างนามธรรมของการประมาณค่าสูงสุดหลัง แต่ก็ยังไม่มีตัวเลขที่เป็นรูปธรรม: S

มันสามารถครอบงำได้มากทำงานเฉพาะกับตัวแปรและฟังก์ชั่นที่เป็นนามธรรมและเพื่อไม่ให้จมน้ำตายในความเป็นนามธรรมนี้มันเป็นเรื่องดีที่จะเชื่อมโยงสิ่งต่าง ๆ เข้ากับโลกแห่งความจริงเป็นครั้งคราว แต่แน่นอนนี่เป็นเพียงการสังเกตของฉัน (และคนอื่น ๆ ) :)

ดังนั้นทุกคนสามารถให้ฉันตัวอย่างง่ายๆ แต่เป็นรูปธรรมเกี่ยวกับการประมาณ Posteriori สูงสุดด้วยตัวเลขบน? นั่นจะช่วยได้มาก :)

ขอบคุณ!

ฉันได้โพสต์คำถามนี้ไว้ที่ MSE แต่ไม่สามารถหาคำตอบได้ที่นั่น:

/math/449386/example-of-maximum-a-posteriori-estimation

ฉันได้ทำตามคำแนะนำที่ให้ไว้ที่นี่ในการโพสต์ข้าม:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

คำตอบ:


6

ตัวอย่างที่ 1

กรณีทั่วไปกำลังแท็กในบริบทของการประมวลผลภาษาธรรมชาติ ดูที่นี่สำหรับคำอธิบายโดยละเอียด ความคิดนั้นโดยทั่วไปจะสามารถกำหนดหมวดหมู่คำศัพท์ในประโยค (มันเป็นคำนามคำคุณศัพท์ ... ) แนวคิดพื้นฐานคือคุณมีรูปแบบของภาษาของคุณประกอบด้วยแบบจำลองมาร์คอฟที่ซ่อนอยู่ ( HMM ) ในโมเดลนี้สถานะที่ซ่อนอยู่นั้นสอดคล้องกับหมวดหมู่คำศัพท์และสถานะที่สังเกตได้กับคำที่แท้จริง

โมเดลกราฟิกที่เกี่ยวข้องมีรูปแบบ

โมเดลกราฟิกของ HMM ตามบัญญัติ

โดยที่คือลำดับของคำในประโยคและเป็นลำดับ จากแท็กx = ( x 1 , . . . , x N )Y=(Y1,...,Yยังไม่มีข้อความ)x=(x1,...,xยังไม่มีข้อความ)

เมื่อผ่านการฝึกอบรมแล้วเป้าหมายคือการหาลำดับที่ถูกต้องของหมวดคำศัพท์ที่สอดคล้องกับประโยคอินพุตที่กำหนด นี่คือสูตรในการค้นหาลำดับของแท็กที่เข้ากันได้มากที่สุด / มีแนวโน้มมากที่สุดที่จะสร้างขึ้นโดยโมเดลภาษาเช่น

(Y)=aRก.ม.axxYพี(x)พี(Y|x)

ตัวอย่างที่ 2

จริงๆแล้วตัวอย่างที่ดีกว่าคือการถดถอย ไม่เพียงเพราะง่ายต่อการเข้าใจ แต่ยังเป็นเพราะทำให้ความแตกต่างระหว่างโอกาสสูงสุด (ML) และสูงสุดหลัง (MAP) ชัดเจน

โดยทั่วไปปัญหาคือการปรับฟังก์ชั่นบางอย่างที่กำหนดโดยตัวอย่างด้วยการรวมกันเชิงเส้นของชุดของฟังก์ชันพื้นฐาน โดยที่เป็นฟังก์ชันพื้นฐานและเป็นตุ้มน้ำหนัก โดยปกติจะสันนิษฐานว่าตัวอย่างเสียหายจากเสียงเกาส์เซียน ดังนั้นถ้าเราคิดว่าฟังก์ชั่นเป้าหมายสามารถเขียนได้อย่างแน่นอนเช่นการรวมกันเชิงเส้นแล้วเรามีเสื้อ

Y(x;W)=ΣผมWผมφผม(x)
φ(x)W

เสื้อ=Y(x;W)+ε

ดังนั้นเราจึงมี การแก้ปัญหา ML ของปัญหานี้เทียบเท่ากับการย่อเล็กสุดพี(เสื้อ|W)=ยังไม่มีข้อความ(เสื้อ|Y(x;W))

E(W)=12Σn(เสื้อn-WTφ(xn))2

ซึ่งให้วิธีการแก้ไขข้อผิดพลาดน้อยที่สุดที่รู้จักกันดี ตอนนี้ ML มีความไวต่อเสียงรบกวนและในบางสถานการณ์อาจไม่มั่นคง MAP ช่วยให้คุณเลือกวิธีแก้ปัญหาที่ดีกว่าโดยการ จำกัด น้ำหนัก ตัวอย่างเช่นกรณีทั่วไปคือการถดถอยของสันเขาซึ่งคุณต้องการให้ตุ้มน้ำหนักมีบรรทัดฐานที่เล็กที่สุด

E(W)=12Σn(เสื้อn-WTφ(xn))2+λΣkWk2

ซึ่งเทียบเท่ากับการตั้งค่าแบบเกาส์ก่อนในน้ำหนัก{I}) โดยรวมแล้วน้ำหนักโดยประมาณคือยังไม่มีข้อความ(W|0,λ-1ผม)

W=aRก.ม.ผมnWพี(W;λ)พี(เสื้อ|W;φ)

โปรดสังเกตว่าใน MAP น้ำหนักนั้นไม่ใช่พารามิเตอร์เหมือนใน ML แต่เป็นตัวแปรสุ่ม อย่างไรก็ตามทั้ง ML และ MAP เป็นตัวประมาณค่าจุด (จะส่งคืนชุดน้ำหนักที่เหมาะสมที่สุดแทนที่จะกระจายน้ำหนักที่เหมาะสมที่สุด)


+1 Hi @juampa ขอบคุณสำหรับคำตอบของคุณ :) แต่ฉันยังคงมองหาตัวอย่างที่เป็นรูปธรรมมากขึ้น :)
jjepsuomi

ขอบคุณอีกครั้ง @juampa ตอนนี้คุณจะดำเนินการหาที่ลดอาร์กิวเมนต์ได้อย่างไร คุณใช้การไล่ระดับสีหรืออัลกอริทึมซ้ำบางอย่างเช่นวิธีการของนิวตันหรือไม่? W
jjepsuomi

1
อย่างแน่นอน หนึ่งสามารถแก้ปัญหาได้โดยตรง (มีวิธีการแก้ปัญหาแบบปิด) แต่เกี่ยวข้องกับ inverting เมทริกซ์{3}) และนั่นคือเหตุผลของการใช้วิธีการวนซ้ำ (โดยเฉพาะเมื่อจัดการกับปัญหามิติสูง) O(n3)
jpmuc

สมการแรกคือ ? (Y)=aRก.ม.axxXพี(x)พี(Y|x)
Lerner Zhang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.