Laplace smoothing และ Dirichlet มาก่อน


11

ในบทความวิกิพีเดียเรื่อง Laplace smoothing (หรือการปรับให้เรียบขึ้น) กล่าวกันว่าจากมุมมองแบบเบย์

สิ่งนี้สอดคล้องกับค่าคาดหวังของการแจกแจงหลังโดยใช้การแจกแจง Dirichlet แบบสมมาตรพร้อมพารามิเตอร์เหมือนก่อนα

ฉันสับสนเกี่ยวกับความจริงที่ว่า ใครช่วยให้ฉันเข้าใจว่าทั้งสองสิ่งนั้นเท่ากัน?

ขอบคุณ!

คำตอบ:


10

แน่ใจ นี่เป็นการสังเกตว่าการแจกแจงไดริชเลต์เป็นคอนจูเกตก่อนการแจกแจงพหุนาม ซึ่งหมายความว่าพวกเขามีรูปแบบการทำงานเดียวกัน บทความกล่าวถึงมัน แต่ฉันจะเน้นว่านี่เป็นไปตามรูปแบบการสุ่มตัวอย่างหลายตัวอย่าง ดังนั้นลงไปที่มัน ...

การสังเกตเป็นเรื่องเกี่ยวกับด้านหลังดังนั้นเรามาแนะนำข้อมูลบางอย่างซึ่งนับจำนวนรายการแตกต่างกัน เราสังเกตตัวอย่างทั้งหมด เราจะสมมติว่ามาจากการแจกแจงที่ไม่รู้จัก (ซึ่งเราจะใส่ก่อนหน้า -simplex)xKN=i=1KxixπDir(α)K

ความน่าจะเป็นหลังของได้รับและ dataคือπαx

p(π|x,α)=p(x|π)p(π|α)

ความน่าจะเป็นคือการแจกแจงพหุนาม ทีนี้ลองเขียน pdf ของ:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

และ

p(π|α)=1B(α)i=1Kπiα1

ที่alpha)} การคูณเราพบว่าB(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

ในคำอื่น ๆ หลังเป็นยัง Dirichlet คำถามคือเกี่ยวกับค่าเฉลี่ยหลัง เนื่องจากด้านหลังเป็น Dirichlet เราสามารถใช้สูตรสำหรับค่าเฉลี่ยของ Dirichletเพื่อค้นหาว่า

E[πi|α,x]=xi+αN+Kα.

หวังว่านี่จะช่วยได้!


p(π|α,x)=p(x|π)p(π|α)/p(x|α),ดังนั้นจึงไม่ผิดที่จะบอกว่ามันเป็นสัดส่วนที่เกี่ยวกับแต่การเขียนความเท่าเทียมกันนั้นไม่จริงเลย p(π|α,x)=p(x|π)p(π|α)?π
michal

ฉันสับสนเกี่ยวกับเรื่องนี้เป็นเวลานานและฉันต้องการแบ่งปันความตระหนักของฉัน ผู้คนเหล่านี้สร้างแรงบันดาลใจให้ Laplace smoothing โดย Dirichlet กำลังใช้ Posterior Mean ไม่ใช่ MAP สำหรับความเรียบง่ายสมมติว่าการแจกแจงแบบเบต้า (กรณีที่ง่ายที่สุดของ Dirichlet) ค่าเฉลี่ยหลังคือในขณะที่ MAP คือ2} ดังนั้นถ้ามีคนบอกว่าสอดคล้องกับการเพิ่ม 1 เข้ากับตัวเศษและ 2 กับตัวส่วนนั่นเป็นเพราะพวกเขากำลังใช้ Posterior Mean α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy

0

ในฐานะที่เป็นข้อความด้านข้างฉันต้องการเพิ่มอีกจุดหนึ่งให้กับจุดกำเนิดที่กล่าวมาซึ่งไม่เกี่ยวกับคำถามหลัก อย่างไรก็ตามเมื่อพูดถึง Dirichlet priors เกี่ยวกับการกระจายแบบพหุนามฉันคิดว่ามันมีค่าที่จะกล่าวถึงสิ่งที่จะเป็นรูปแบบของฟังก์ชันความน่าจะเป็นถ้าเราจะใช้ความน่าจะเป็นเป็นตัวแปรสร้างความรำคาญ

ที่มันชี้ให้เห็นได้อย่างถูกต้องโดย sydeulissie โดยที่เป็นสัดส่วนกับalpha-1} ตอนนี้ที่นี่ผมอยากจะคำนวณalpha)p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

การใช้ข้อมูลเฉพาะตัวสำหรับฟังก์ชันแกมม่าเรามี:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

ความน่าจะเป็นของข้อมูลที่เป็นหมวดหมู่ข้างต้นได้เสนอวิธีการที่แข็งแกร่งกว่าในการจัดการกับข้อมูลนี้สำหรับกรณีที่ขนาดตัวอย่างไม่ใหญ่พอN

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.