ความสัมพันธ์ระหว่าง Bayes ผันแปรและ EM


26

ฉันอ่านบางที่ว่าวิธี Variational Bayes เป็นลักษณะทั่วไปของอัลกอริทึม EM แท้จริงแล้วส่วนซ้ำ ๆ ของอัลกอริทึมนั้นคล้ายกันมาก เพื่อทดสอบว่าอัลกอริทึม EM เป็นเวอร์ชันพิเศษของ Variational Bayes ฉันลองทำสิ่งต่อไปนี้:

  1. Yคือข้อมูลคือชุดของตัวแปรแฝงและคือพารามิเตอร์ ในแปรผัน Bayes เราทำให้สามารถสร้างประมาณดังกล่าวว่าที) ในกรณีที่ s นั้นง่ายกว่าและมีการแจกแจงที่เข้าใจง่ายΘ P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) QXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. เนื่องจากอัลกอริทึม EM พบการประมาณค่าจุด MAP ฉันคิดว่า Variational Bayes สามารถรวมเข้ากับ EM ได้ถ้าฉันใช้ฟังก์ชัน Delta ซึ่ง: . เป็นการประเมินครั้งแรกสำหรับพารามิเตอร์ตามปกติใน EMΘ 1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. เมื่อจะได้รับซึ่งลดค่า KL Divergence โดยสูตร สูตรด้านบนลดความซับซ้อนของขั้นตอนนี้กลายเป็นขั้นตอนที่เทียบเท่ากับความคาดหวัง ของอัลกอริทึม EM!Q 1 X ( X ) Q 1 X ( X ) = ประสบการณ์( E δ Θ 1 [ LN P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) Q 1 X (X)=P(X|Θ1,Y)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

แต่ฉันไม่สามารถสืบทอดขั้นตอนการทำให้เป็นสูงสุดได้เนื่องจากความต่อเนื่องของสิ่งนี้ ในขั้นตอนต่อไปเราจำเป็นต้องคำนวณและตามกฎการวนซ้ำของ Bay Variation นี่คือ:QΘ2(Θ)

QΘ2(Θ)=ประสบการณ์(EP(X|Θ1,Y)[LNP(X,Y,Θ)])ประสบการณ์(EP(X|Θ1,Y)[LNP(X,Y,Θ)])dΘ

อัลกอริธึม VB และ EM นั้นเชื่อมต่อด้วยวิธีนี้จริงหรือ เราจะได้ EM มาเป็นกรณีพิเศษของ Variational Bayes ได้อย่างไรแนวทางของฉันเป็นจริงหรือไม่?


คุณอ่านที่ไหนว่าอัลกอริทึม EM ค้นหาการประมาณค่า MAP ความสัมพันธ์ระหว่างการอนุมานแปรผันและ EM จะกลายเป็นที่ชัดเจนเมื่อคุณเข้าใจมุมมองของ EM ที่นำเสนอในบทความนี้โดยโอนีลและฮินตัน (1998) ดูเพิ่มเติมคำตอบของฉันที่นี่
ลูคัส

ฉันคิดว่าฉันได้เรียนรู้อัลกอริทึม EM ในลักษณะเดียวกับที่อธิบายในบทความนี้มันถูกมองว่าเป็นปัญหาการขยายสูงสุดที่ต่ำกว่า การใช้ความเสมอภาคของเซ่นและแคลคูลัสของการเปลี่ยนแปลงเราพบว่าในขั้นตอนการคาดหวังคือการกระจายที่เพิ่มขอบเขตสูงสุดให้กับและในขั้นตอนขยายสูงสุดหนึ่งพบซึ่งเป็นค่าสูงสุดของขอบเขตล่าง ดังนั้นมันจึงคล้ายกับ Variational Bayes (และมันมาบรรจบกันเป็นค่าสูงสุดของพื้นที่ชายขอบด้านหลังซึ่งเป็นค่าประมาณ MAP)Θ t Θ t + 1 = a r g m a x Θ < ln P ( X , Y , Θ ) > P ( X | Θ t , Y )P(X|Θเสื้อ,Y)Θเสื้อΘเสื้อ+1=aRก.ม.axΘ<LNP(X,Y,Θ)>P(X|Θเสื้อ,Y)
Ufuk Can Bicici

1
ขออภัยฉันอ่านคำถามของคุณไม่ดีพอ ฉันเชื่อว่าขั้นตอนการเพิ่มประสิทธิภาพสูงสุดของคุณในการคำนวณจะใช้ได้เฉพาะในกรณีที่คุณอนุญาตให้มีการแจกแจงใด ๆ นั่นคือถ้าคุณใช้สมมติฐานการแยกตัวประกอบเท่านั้น แต่คุณคิดเพิ่มเติมว่าคือการแจกเดลต้า พยายามที่จะชัดเจนเพิ่มขีด จำกัด ล่างด้วยความเคารพพารามิเตอร์ของที) Q 2 Θ Θ 2 Q 2 Θ ( Θ ) = δ Θ 2 ( Θ )QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
ลูคัส

ฉันพบในหน้า 21 ของการนำเสนอcs.cmu.edu/~tom/10-702/Zoubin-702.pdfการเปรียบเทียบ EM และ VB ได้รับการแสดงเช่นเดียวกันโดยใช้ฟังก์ชัน Dirac แต่วิธีการที่ VB จะลด EM ไม่ได้รับ
Ufuk Can Bicici

คำตอบ:


20

วิธีการของคุณถูกต้อง EM เทียบเท่ากับ VB ภายใต้ข้อ จำกัด ที่ส่วนหลังของโดยประมาณถูก จำกัด ให้เป็นมวลจุด (สิ่งนี้ถูกกล่าวถึงโดยไม่มีข้อพิสูจน์ในหน้า 337 ของการวิเคราะห์ข้อมูลแบบเบส์ ) ให้เป็นตำแหน่งที่ไม่ทราบตำแหน่งของมวลจุดนี้: VB จะ ลดการ KL ต่อไปนี้: ขั้นต่ำกว่าให้ E-step ของ EM และต่ำกว่าให้ M-step ของ EM Θ * Q Θ ( Θ ) = δ ( Θ - Θ * ) K L ( Q | | P ) = Q X ( X ) Q Θ ( Θ ) LN Q X ( X ) Q Θ ( Θ )ΘΘ* * * *

QΘ(Θ)=δ(Θ-Θ* * * *)
KL(Q||P)=QX(X)QΘ(Θ)LNQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)LNQX(X)QΘ(Θ* * * *)P(X,Y,Θ* * * *)dX
QX(X)Θ* * * *

แน่นอนถ้าคุณต้องประเมินความแตกต่างของ KL จริง ๆ มันจะไม่มีที่สิ้นสุด แต่นั่นไม่ใช่ปัญหาหากคุณพิจารณาว่าฟังก์ชันเดลต้าเป็นขีด จำกัด


ในทางเทคนิคการเพิ่ม wrtสอดคล้องกับ M-step ของ MAP-EM (ที่มีก่อนหน้า ) - ส่วน 3.1 ของกระดาษ VBEMEQx[LNP(X,Y,Θ* * * *)]=EQx[LNP(X,Y|Θ* * * *)]+LNP(Θ* * * *)Θ* * * *P(Θ* * * *)
Yibo Yang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.