แรงจูงใจของอัลกอริธึมการเพิ่มความคาดหวัง


20

ในแนวทางของอัลกอริทึม EM ที่เราใช้ความไม่เท่าเทียมกันของเซ่นจะมาถึงที่

logp(x|θ)logp(z,x|θ)p(z|x,θ(k))dzlogp(z|x,θ)p(z|x,θ(k))dz

และกำหนดθ(k+1)โดย

θ(k+1)=argmaxθlogp(z,x|θ)p(z|x,θ(k))dz

ทุกอย่างที่ฉันอ่าน EM ก็แค่ลดทอนลง แต่ฉันก็รู้สึกไม่สบายใจอยู่เสมอโดยไม่มีคำอธิบายว่าทำไมอัลกอริธึม EM จึงเกิดขึ้นเองตามธรรมชาติ ฉันเข้าใจว่าโอกาสในการlogโดยทั่วไปแล้วจะจัดการกับการเพิ่มนอกเหนือจากการคูณ แต่การปรากฏตัวของlogในคำจำกัดความของθ(k+1)ทำให้ฉันรู้สึกไม่คุ้นเคย เหตุใดจึงควรพิจารณาlogและไม่ใช่ฟังก์ชั่นอื่น ๆ ? ด้วยเหตุผลต่าง ๆ ฉันสงสัยว่า "ความหมาย" หรือ "แรงจูงใจ" เบื้องหลังการเพิ่มความคาดหวังมีคำอธิบายบางอย่างในแง่ของทฤษฎีข้อมูลและสถิติที่เพียงพอ หากมีคำอธิบายดังกล่าวที่จะพอใจมากกว่าเพียงแค่อัลกอริทึมนามธรรม


3
อัลกอริธึมการเพิ่มความคาดหวังสูงสุดคืออะไร? , Nature Biotechnology 26 : 897–899 (2008) มีภาพที่สวยงามซึ่งแสดงให้เห็นว่าอัลกอริทึมทำงานอย่างไร
chl

@chl: ฉันได้เห็นบทความนั้น จุดที่ฉันถามคือการแจ้งให้ทราบว่าไม่มีที่ไหนอธิบายได้ว่าทำไมวิธีการที่ไม่ใช่การเข้าสู่ระบบไม่สามารถใช้งานได้
user782220

คำตอบ:


10

อัลกอริทึม EM มีการตีความที่แตกต่างกันและสามารถเกิดขึ้นได้ในรูปแบบที่แตกต่างกันในการใช้งานที่แตกต่างกัน

ทุกอย่างเริ่มต้นด้วยฟังก์ชั่นความน่าจะเป็นหรืออย่างเท่าเทียมกันบันทึกฟังก์ชั่นความน่าจะเป็นบันทึกp ( x | θ ) ที่เราต้องการจะเพิ่มให้มากที่สุด (โดยทั่วไปเราใช้ลอการิทึมเนื่องจากทำให้การคำนวณง่ายขึ้น: มันเป็นเสียงโมโนโทนเดียว, เว้าและบันทึก( a b ) = log a + log b .) ในโลกอุดมคติค่าpขึ้นอยู่กับพารามิเตอร์ของโมเดลθเท่านั้นดังนั้น เราสามารถค้นหาผ่านช่องว่างของθและค้นหาสิ่งที่ทำให้เกิดประโยชน์สูงสุดp(x|θ)logp(x|θ)log(ab)=loga+logbp θθพีp

อย่างไรก็ตามในแอปพลิเคชันในโลกแห่งความจริงที่น่าสนใจหลายสิ่งมีความซับซ้อนมากขึ้น ใช่เราอาจสังเกตโดยตรงแต่ตัวแปรอื่น ๆ บางตัวzไม่มีการตรวจสอบ เนื่องจากการขาดหายไปตัวแปรZเราอยู่ในสถานการณ์แบบไก่และไข่: โดยไม่ต้องZเราไม่สามารถที่จะประเมินพารามิเตอร์θและไม่มีθเราไม่สามารถสรุปสิ่งที่มีค่าของZอาจจะxz zzθθz

นี่คือที่มาของอัลกอริทึม EM เราเริ่มต้นด้วยการเดาการเริ่มต้นของรูปแบบพารามิเตอร์และได้รับมาค่าคาดว่าของที่หายไปตัวแปรZ (เช่นขั้นตอนอี) เมื่อเรามีค่าของZเราสามารถเพิ่มโอกาส WRT พารามิเตอร์θ (กล่าวคือขั้นตอนที่เอ็มสอดคล้องกับหาเรื่องสูงสุดสมการในงบปัญหา) ด้วยวิธีนี้θเราสามารถได้รับค่าคาดว่าใหม่ของZ (ขั้นตอน E อื่น) อื่น ๆ และอื่น ๆ กล่าวอีกนัยหนึ่งในแต่ละขั้นตอนเราจะถือว่าหนึ่งในทั้งคู่คือzและθθzzθargmaxθzzθเป็นที่รู้จักกัน เราทำซ้ำขั้นตอนนี้ซ้ำจนกว่าจะไม่สามารถเพิ่มโอกาสได้อีกต่อไป

นี่คืออัลกอริทึม EM โดยสังเขป เป็นที่ทราบกันดีว่าโอกาสที่จะไม่ลดลงในระหว่างกระบวนการ EM ที่ซ้ำซ้อนนี้ แต่โปรดจำไว้ว่าอัลกอริทึม EM ไม่รับประกันโลกที่ดีที่สุด นั่นคือมันอาจจะจบลงด้วยฟังก์ชั่นความน่าจะเป็นที่เหมาะสมที่สุดในท้องถิ่น

ลักษณะที่ปรากฏของในสมการของθ ( k + 1 )เป็นสิ่งที่หลีกเลี่ยงไม่ได้เพราะที่นี่ฟังก์ชั่นที่คุณต้องการเพิ่มให้มากที่สุดจะถูกเขียนเป็นบันทึกความน่าจะเป็นlogθ(k+1)


ฉันไม่เห็นว่าสิ่งนี้ตอบคำถามได้อย่างไร
broncoAbierto

9

ความน่าจะเป็นเทียบกับความน่าจะเป็น

ในฐานะที่ได้รับแล้วกล่าวว่าเป็นที่รู้จักในโอกาสสูงสุดเพียงเพราะมันเป็นเรื่องปกติที่ง่ายต่อการเพิ่มประสิทธิภาพของผลรวมกว่าผลิตภัณฑ์ เหตุผลที่เราไม่พิจารณาฟังก์ชั่นแบบโมโนโทนิกอื่น ๆ ก็คือลอการิทึมนั้นเป็นฟังก์ชั่นที่ไม่เหมือนใครด้วยคุณสมบัติของการเปลี่ยนผลิตภัณฑ์ให้เป็นผลรวมlog

อีกวิธีในการกระตุ้นลอการิทึมดังต่อไปนี้: แทนที่จะเพิ่มความน่าจะเป็นของข้อมูลภายใต้แบบจำลองของเราเราสามารถพยายามลดการเบี่ยงเบน Kullback-Leibler ให้เท่ากันระหว่างการกระจายข้อมูล, และการกระจายตัวแบบ, p ( x | θ ) ,pdata(x)p(xθ)

DKL[pdata(x)∣∣p(xθ)]=pdata(x)logpdata(x)p(xθ)dx=constpdata(x)logp(xθ)dx.

เทอมแรกทางขวามือเป็นค่าคงที่ในพารามิเตอร์ หากเรามีตัวอย่างจากการแจกแจงข้อมูล (จุดข้อมูลของเรา) เราสามารถประมาณระยะที่สองด้วยค่าเฉลี่ยโอกาสในการบันทึกข้อมูลN

pdata(x)logp(xθ)dx1Nnlogp(xnθ).

An alternative view of EM

I am not sure this is going to be the kind of explanation you are looking for, but I found the following view of expectation maximization much more enlightening than its motivation via Jensen's inequality (you can find a detailed description in Neal & Hinton (1998) or in Chris Bishop's PRML book, Chapter 9.3).

It is not difficult to show that

logp(xθ)=q(zx)logp(x,zθ)q(zx)dz+DKL[q(zx)∣∣p(zx,θ)]

for any q(zx). If we call the first term on the right-hand side F(q,θ), this implies that

F(q,θ)=q(zx)logp(x,zθ)q(zx)dz=logp(xθ)DKL[q(zx)∣∣p(zx,θ)].

Because the KL divergence is always positive, F(q,θ) is a lower bound on the log-likelihood for every fixed q. Now, EM can be viewed as alternately maximizing F with respect to q and θ. In particular, by setting q(zx)=p(zx,θ) in the E-step, we minimize the KL divergence on the right-hand side and thus maximize F.


Thanks for the post! Though the given document doesn't say logarithm is the unique function turning products into sums. It says logarithm is the only function that fulfills all three listed properties at the same time.
Weiwei

@Weiwei: Right, but the first condition mainly requires that the function is invertible. Of course, f(x) = 0 also implies f(x + y) = f(x)f(y), but this is an uninteresting case. The third condition asks that the derivative at 1 is 1, which is only true for the logarithm to base e. Drop this constraint and you get logarithms to different bases, but still logarithms.
Lucas

4

The paper that I found clarifying with respect to expectation-maximization is Bayesian K-Means as a "Maximization-Expectation" Algorithm (pdf) by Welling and Kurihara.

p(x,z,θ)xzθDp(z,θ|D)

1. การสุ่มตัวอย่างกิ๊บส์

p(z,θ|D)p(z,θ|D) by alternating:

θp(θ|z,D)zp(z|θ,D)

2. Variational Bayes

Instead, we can try to establish a distribution q(θ) and q(z) and minimize the difference with the distribution we are after p(θ,z|D). The difference between distributions has a convenient fancy name, the KL-divergence. To minimize KL[q(θ)q(z)||p(θ,z|D)] we update:

q(θ)exp(E[logp(θ,z,D)]q(z))q(z)exp(E[logp(θ,z,D)]q(θ))

3. Expectation-Maximization

To come up with full-fledged probability distributions for both z and θ might be considered extreme. Why don't we instead consider a point estimate for one of these and keep the other nice and nuanced. In EM the parameter θ is established as the one being unworthy of a full distribution, and set to its MAP (Maximum A Posteriori) value, θ.

θ=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ,D)

Here θargmax would actually be a better notation: the argmax operator can return multiple values. But let's not nitpick. Compared to variational Bayes you see that correcting for the log by exp doesn't change the result, so that is not necessary anymore.

4. Maximization-Expectation

There is no reason to treat z as a spoiled child. We can just as well use point estimates z for our hidden variables and give the parameters θ the luxury of a full distribution.

z=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z,D)

If our hidden variables z are indicator variables, we suddenly have a computationally cheap method to perform inference on the number of clusters. This is in other words: model selection (or automatic relevance detection or imagine another fancy name).

5. Iterated conditional modes

Of course, the poster child of approximate inference is to use point estimates for both the parameters θ as well as the observations z.

θ=argmaxθp(θ,z,D)z=argmaxzp(θ,z,D)

To see how Maximization-Expectation plays out I highly recommend the article. In my opinion, the strength of this article is however not the application to a k-means alternative, but this lucid and concise exposition of approximation.


(+1) this is a beautiful summary of all methods.
kedarps

4

There is a useful optimisation technique underlying the EM algorithm. However, it's usually expressed in the language of probability theory so it's hard to see that at the core is a method that has nothing to do with probability and expectation.

Consider the problem of maximising

g(x)=iexp(fi(x))
(or equivalently logg(x)) with respect to x. If you write down an expression for g(x) and set it equal to zero you will often end up with a transcendental equation to solve. These can be nasty.

Now suppose that the fi play well together in the sense that linear combinations of them give you something easy to optimise. For example, if all of the fi(x) are quadratic in x then a linear combination of the fi(x) will also be quadratic, and hence easy to optimise.

Given this supposition, it'd be cool if, in order to optimise logg(x)=logiexp(fi(x)) we could somehow shuffle the log past the so it could meet the exps and eliminate them. Then the fi could play together. But we can't do that.

Let's do the next best thing. We'll make another function h that is similar to g. And we'll make it out of linear combinations of the fi.

Let's say x0 is a guess for an optimal value. We'd like to improve this. Let's find another function h that matches g and its derivative at x0, i.e. g(x0)=h(x0) and g(x0)=h(x0). If you plot a graph of h in a small neighbourhood of x0 it's going to look similar to g.

You can show that

g(x)=ifi(x)exp(fi(x)).
We want something that matches this at x0. There's a natural choice:
h(x)=constant+ifi(x)exp(fi(x0)).
You can see they match at x=x0. We get
h(x)=ifi(x)exp(fi(x0)).
As x0 is a constant we have a simple linear combination of the fi whose derivative matches g. We just have to choose the constant in h to make g(x0)=h(x0).

So starting with x0, we form h(x) and optimise that. Because it's similar to g(x) in the neighbourhood of x0 we hope the optimum of h is similar to the optimum of g. Once you have a new estimate, construct the next h and repeat.

I hope this has motivated the choice of h. This is exactly the procedure that takes place in EM.

But there's one more important point. Using Jensen's inequality you can show that h(x)g(x). This means that when you optimise h(x) you always get an x that makes g bigger compared to g(x0). So even though h was motivated by its local similarity to g, it's safe to globally maximise h at each iteration. The hope I mentioned above isn't required.

This also gives a clue to when to use EM: when linear combinations of the arguments to the exp function are easier to optimise. For example when they're quadratic - as happens when working with mixtures of Gaussians. This is particularly relevant to statistics where many of the standard distributions are from exponential families.


3

As you said, I will not go into technical details. There are quite a few very nice tutorials. One of my favourites are Andrew Ng's lecture notes. Take a look also at the references here.

  1. EM is naturally motivated in mixture models and models with hidden factors in general. Take for example the case of Gaussian mixture models (GMM). Here we model the density of the observations as a weighted sum of K gaussians:

    p(x)=i=1KπiN(x|μi,Σi)
    where πi is the probability that the sample x was caused/generated by the ith component, μi is the mean of the distribution, and Σi is the covariance matrix. The way to understand this expression is the following: each data sample has been generated/caused by one component, but we do not know which one. The approach is then to express the uncertainty in terms of probability (πi represents the chances that the ith component can account for that sample), and take the weighted sum. As a concrete example, imagine you want to cluster text documents. The idea is to assume that each document belong to a topic (science, sports,...) which you do not know beforehand!. The possible topics are hidden variables. Then you are given a bunch of documents, and by counting n-grams or whatever features you extract, you want to then find those clusters and see to which cluster each document belongs to. EM is a procedure which attacks this problem step-wise: the expectation step attempts to improve the assignments of the samples it has achieved so far. The maximization step you improve the parameters of the mixture, in other words, the form of the clusters.
  2. The point is not using monotonic functions but convex functions. And the reason is the Jensen's inequality which ensures that the estimates of the EM algorithm will improve at every step.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.