การอนุมานแบบแปรผัน KL divergence ต้องการจริง


12

ถึง (เจียมเนื้อเจียมตัวมาก) ฉันเข้าใจของการอนุมานแปรผันหนึ่งพยายามที่จะใกล้เคียงกับไม่รู้จักกระจายโดยการหาการกระจายที่เพิ่มประสิทธิภาพต่อไปนี้:pq

KL(p||q)=xp(x)logp(x)q(x)

เมื่อใดก็ตามที่ฉันลงทุนเวลาในการทำความเข้าใจกับการอนุมานความแปรปรวนฉันยังคงกดปุ่มสูตรนี้และไม่สามารถช่วย แต่รู้สึกว่าฉันไม่มีจุด ดูเหมือนว่าฉันจำเป็นต้องทราบเพื่อคำนวณด) แต่จุดทั้งผมไม่ทราบว่าการกระจายนี้พีpKL(p||q)p

มันเป็นจุดที่แน่นอนที่ทำให้ฉันดักฟังทุกครั้งที่ฉันพยายามอ่านบางสิ่งที่เปลี่ยนแปลง ฉันกำลังคิดถึงอะไร

แก้ไข :

ฉันจะเพิ่มความคิดเห็นพิเศษบางส่วนที่นี่อันเป็นผลมาจากคำตอบของ @wij ฉันจะพยายามให้แม่นยำยิ่งขึ้น

ในกรณีที่ฉันสนใจดูเหมือนว่าสมเหตุสมผลอย่างสมบูรณ์ที่จะพิจารณาว่าต่อไปนี้ถือ;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

ในกรณีนี้ผมจะรู้ว่าสิ่งที่สัดส่วนควรมีลักษณะเช่นเพราะผมจะได้เลือกแบบจำลองสำหรับและtheta) ฉันจะทำนั้นถูกต้องในการบอกว่าฉันก็ต้องไปรับการกระจายครอบครัว [ช่วยบอกเกาส์] ดังกล่าวว่าตอนนี้ฉันสามารถประมาณการด) มันให้ความรู้สึกเหมือนอยู่ในกรณีนี้ผมกำลังพยายามที่จะพอดีกับเกาส์ที่อยู่ใกล้กับที่ไม่ปกติtheta) ถูกต้องหรือไม่pp(D|θ)p(θ)qKL(p(θ|D)||q)p(D|θ)p(θ)

ถ้าเป็นเช่นนั้นฉันรู้สึกว่าฉันสมมติว่าลูกหลานของฉันคือการแจกแจงแบบปกติและฉันแค่พยายามหาค่าที่เป็นไปได้สำหรับการกระจายนี้โดยคำนึงถึงความแตกต่างของKL

คำตอบ:


7

ฉันมีความรู้สึกว่าคุณปฏิบัติต่อเป็นวัตถุที่ไม่รู้จักอย่างสมบูรณ์ ฉันไม่คิดว่าเป็นกรณีนี้ นี่อาจเป็นสิ่งที่คุณพลาดไปp

สมมติว่าเราสังเกต (iid) และเราต้องการอนุมานโดยที่เราถือว่าและสำหรับถูกระบุโดยโมเดล ตามกฎของเบย์Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

ครั้งแรกที่สังเกตคือการที่เรารู้ว่าบางสิ่งบางอย่างเกี่ยวกับการกระจายหลังY) มันจะได้รับดังกล่าวข้างต้น โดยปกติแล้วเราก็ไม่ทราบว่า Normalizer ของ(Y) หากโอกาสมีความซับซ้อนมากแล้วเราจบลงด้วยการมีบางส่วนกระจายซับซ้อนY)p(x|Y)p(Y)p(y|x)p(x|Y)

สิ่งที่สองที่ทำให้สามารถอนุมานความแปรปรวนได้คือมีข้อ จำกัด ในรูปแบบที่สามารถรับได้ โดยไม่มีข้อ จำกัดจะเป็นซึ่งมักจะไม่ยอมให้ โดยทั่วไปแล้วจะอยู่ในเซตย่อยที่เลือกของตระกูลเอ็กซ์โพเนนเชียล ตัวอย่างเช่นนี่อาจเป็นตระกูลของการแจกแจงแบบเกาส์ที่แยกตัวประกอบอย่างสมบูรณ์คือ\} ปรากฎว่าถ้านี่เป็นชุดข้อ จำกัด ของคุณแล้วแต่ละองค์ประกอบของจะได้รับจากqargminqKL(p||q)pqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

โดยที่สูตรที่แน่นอนไม่สำคัญมาก ประเด็นก็คือประมาณสามารถพบได้โดยอาศัยความรู้ของจริงและสมมติฐานในรูปแบบที่ควรใช้ประมาณp(x,Y)=p(x)i=1np(yi|x).qpq

ปรับปรุง

ต่อไปนี้คือการตอบส่วนที่ปรับปรุงในคำถาม ฉันเพิ่งรู้ว่าผมได้คิดเกี่ยวกับY)) ฉันจะใช้สำหรับปริมาณที่แท้จริงเสมอและสำหรับค่าประมาณ Inference อนุมานหรือ Bay Variations,ถูกกำหนดโดยKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

ด้วยข้อ จำกัด ตั้งค่าดังกล่าวข้างต้นการแก้ปัญหาคือสิ่งที่ได้รับก่อนหน้านี้ ตอนนี้ถ้าคุณกำลังคิดQ

q=argminqQKL(p(x|Y)||q),

สำหรับถูกกำหนดให้เป็นเซตย่อยของตระกูลเอ็กซ์โพเนนเชียลจากนั้นการอนุมานนี้เรียกว่าการแพร่กระจายความคาดหวัง (EP) วิธีการแก้ปัญหาสำหรับในกรณีนี้เป็นหนึ่งในช่วงเวลาดังกล่าวว่ามันตรงกับของY)Qqp(x|Y)

ทั้งสองวิธีที่คุณมีสิทธิในการบอกว่าเป็นหลักคุณพยายามที่จะใกล้เคียงกับการกระจายหลังที่แท้จริงในความรู้สึก KL โดยการกระจายจำกัด ที่จะใช้รูปแบบบางส่วนq


ฉันไม่สามารถโต้เถียงกับสิ่งนี้ ฉันคิดว่าคำอธิบายส่วนใหญ่รวมถึงเงาของตัวเองมากกว่านี้
Peadar Coyle
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.