ทุกคนสามารถอธิบายคำพ้องกันในรูปแบบที่ง่ายที่สุดได้ไหม?


23

ฉันพยายามทำความเข้าใจความคิดของนักบวชในสถิติ Bayesian มาระยะหนึ่งแล้ว แต่ฉันก็ไม่เข้าใจ ทุกคนสามารถอธิบายแนวคิดดังกล่าวด้วยคำศัพท์ที่ง่ายที่สุดที่เป็นไปได้หรืออาจใช้ตัวอย่าง "เสียนมาก่อน" เป็นตัวอย่าง?

คำตอบ:


23

ก่อนหน้าสำหรับพารามิเตอร์มักจะมีรูปแบบการทำงานเฉพาะบางอย่าง (เขียนในแง่ของความหนาแน่นโดยทั่วไป) สมมติว่าเรา จำกัด ตัวเองไว้เฉพาะครอบครัวหนึ่งแห่งการแจกแจงซึ่งในกรณีนี้การเลือกของเราก่อนลดการเลือกพารามิเตอร์ของตระกูลนั้น

ตัวอย่างเช่นพิจารณารูปแบบปกติ ) เพื่อความง่ายเราลองใช้σ 2YiiidN(μ,σ2)σ2ตามที่รู้จักกัน ส่วนนี้ของโมเดล - โมเดลสำหรับข้อมูล - กำหนดฟังก์ชันความน่าจะเป็น

เพื่อให้แบบจำลอง Bayesian ของเราสมบูรณ์เราจำเป็นต้องมีμก่อนμ μ

ตามที่กล่าวไว้ข้างต้นโดยทั่วไปเราอาจระบุตระกูลการแจกจ่ายบางอย่างสำหรับμก่อนหน้าของเราμแล้วเราจะต้องเลือกพารามิเตอร์ของการแจกแจงนั้น (ตัวอย่างเช่นบ่อยครั้งที่ข้อมูลก่อนหน้านี้อาจจะค่อนข้างคลุมเครือ - เหมือนกับที่เราต้องการ มากกว่ารูปแบบการใช้งานที่เฉพาะเจาะจงมากและเราอาจมีอิสระมากพอที่จะสร้างแบบจำลองสิ่งที่เราต้องการโดยการเลือกพารามิเตอร์ - พูดเพื่อให้ตรงกับค่าเฉลี่ยและความแปรปรวนก่อนหน้า)

หากปรากฎว่าหลังสำหรับนั้นมาจากที่เดียวกันμตระกูลกับก่อนหน้านั้นก็จะถูกเรียกว่า "conjugate"

(สิ่งที่ทำให้กลายเป็นคอนจูเกตคือวิธีที่ผสมผสานกับความเป็นไปได้)

ดังนั้นในกรณีนี้เราจะเอา Gaussian มาก่อนสำหรับ (พูดμ N ( θ , τ 2 ) ) ถ้าเราทำอย่างนั้นเราจะเห็นว่าด้านหลังของμนั้นก็คือเกาส์ด้วย ดังนั้นแบบเกาส์เซียนก่อนเป็นคอนจูเกตก่อนหน้าสำหรับโมเดลของเราด้านบนμμN(θ,τ2)μ

นั่นคือทั้งหมดที่มีให้มันจริงๆ - ถ้าหลังมาจากครอบครัวเดียวกันกับก่อนหน้านี้มันเป็นคอนจูเกตก่อน

ในกรณีง่าย ๆ คุณสามารถระบุคอนจูเกตก่อนโดยตรวจสอบความน่าจะเป็น ตัวอย่างเช่นพิจารณาความเป็นไปได้ของทวินาม ปล่อยค่าคงที่, มันดูเหมือนความหนาแน่นเบต้าใน ; และเนื่องจากวิธีการที่อำนาจของpและ( 1 - p )รวมกันมันจะคูณด้วยเบต้าก่อนที่จะให้ผลคูณของพลังของpและ( 1 - p ) ... เพื่อให้เราเห็นได้ทันทีจากโอกาสที่ เบต้าจะเป็นคอนจูเกตก่อนสำหรับpในโอกาสที่เป็นทวินามpp(1p)p(1p)p

ในกรณีเกาส์เซียนมันง่ายที่สุดที่จะเห็นว่ามันจะเกิดขึ้นโดยพิจารณาจากความหนาแน่นของล็อกและความน่าจะเป็นของล็อก บันทึกความน่าจะเป็นกำลังสองในและผลรวมของสองกำลังสองคือสมการกำลังสองดังนั้นการบันทึกกำลังสอง - ก่อน + กำลังสองบันทึก - โอกาส - ให้กำลังสองด้านหลังμ


9

หากแบบจำลองของคุณเป็นของตระกูลเอกซ์โพเนนเชียลนั่นคือถ้าความหนาแน่นของการแจกแจงอยู่ในรูปแบบ

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
ด้วยความเคารพไปยังวัดที่มีอำนาจเหนือได้รับ(เกอนับและ TC.) ที่tsหมายถึงเกลาสินค้ามากกว่าRdและ
T:XRdS:ΘRd
มีฟังก์ชั่นที่วัดได้ที่ไพรเออร์ผันในθจะถูกกำหนดโดยความหนาแน่นของฟอร์ม
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[ด้วยความเคารพต่อมาตรการควบคุมที่เลือกโดยพลการ dν onΘ ] กับ
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
and λΛR+, ξΞλT(X)

ตัวเลือกของมาตรการที่มีอิทธิพลเหนือนั้นเป็นตัวกำหนดสำหรับครอบครัวของนักบวช หากตัวอย่างหนึ่งเผชิญกับค่าเฉลี่ยปกติบนμตามคำตอบของ Glen_b การเลือกวัด Lebesgue dμเป็นมาตรการที่มีอำนาจเหนือกว่า ถ้ามีคนเลือก(1+μ2)2dμในฐานะที่เป็นวัดที่มีอำนาจเหนือกว่านักบวชที่อยู่ในตระกูลของการแจกแจงที่มีความหนาแน่น

exp{α(μμ0)2}α>0,  μ0R
ด้วยความเคารพต่อมาตรการที่มีอิทธิพลเหนือนี้และจึงไม่ได้เป็นนักบวชปกติอีกต่อไป ความยากลำบากนี้เป็นหลักเช่นเดียวกับหนึ่งในการเลือกพารามิเตอร์เฉพาะของโอกาสและการเลือกสำหรับการวัด Lebesgue สำหรับพารามิเตอร์นี้ เมื่อเผชิญกับฟังก์ชั่นความน่าจะเป็นไม่มีการสืบทอด (หรือภายในหรือการอ้างอิง) ที่มีอิทธิพลเหนือการวัดในพื้นที่พารามิเตอร์

นอกการตั้งค่าครอบครัวแบบเอ็กซ์โพเนนเชียลไม่มีตระกูลการแจกแจงที่ไม่ใช่เรื่องไร้สาระที่มีการสนับสนุนคงที่ที่ช่วยให้นักบวชร่วมกันได้ นี้เป็นผลมาจากการDarmois-Pitman-คูปแมนแทรก


11
"in simplest possible terms?" Perhaps an explanation that does not assume prior knowledge of measures would be more useful to the OP.

3
alas, I am afraid conjugate priors are meaningless without a measure background (even though this is the best kept secret in the Universe).
Xi'an

6
In my opinion, "simplest possible terms" is open to interpretation, and an explanation which makes use of advanced math such as measure theory might still be "simple" in some sense, maybe even "simpler" than an explanation which avoids such machinery. In any case, such an explanation might be very enlightening to someone who has the necessary background to understand it, and it is harmless to include an answer like this in a list of various ways to explain a topic. We write answers not just for OP but for all future readers.
littleO

1
@LBogaardt Your criticism would carry more weight if you could link to one or more questions where you think this answer would be both on topic and at a more suitable level. Please bear in mind that "simple" is not a well-defined term and has differing subjective interpretations. Regardless, it would be invalid to conflate it with "mathematically unsophisticated," as suggested by your comments.
whuber

2
Xi'an's answer is not useless to me. I learned something.
littleO

2

I like using the notion of a "kernel" of a distribution. This is where you only leave in the parts that depend on the parameter. A few simple examples.

Normal kernel

p(μ|a,b)=K1×exp(aμ2+bμ)
Where K is the "normalising constant" K=exp(aμ2+bμ)dμ=πaexp(b24a) The connection with standard mean/variance parameters is E(μ|a,b)=b2a and Var(μ|a,b)=12a

Beta kernel

p(θ|a,b)=K1×θa(1θ)b
Where K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.