1
ทำไมคนหลัง Bayesian จึงมุ่งไปที่ตัวย่อของ KL divergence?
พิจารณาคชกรรมหลังX asymptotically, สูงสุดเกิดขึ้นใน MLE ประมาณการที่เพิ่งเพิ่มโอกาส(X)θ ∣ Xθ|X\theta\mid Xθ^θ^\hat \thetaargminθฉθ( X)argminθฉθ(X)\operatorname{argmin}_\theta\, f_\theta(X) แนวคิดทั้งหมดเหล่านี้ - นักบวชชาว Bayesian, เพิ่มความเป็นไปได้สูงสุด - ให้เสียงที่ดีเลิศและไม่เป็นไปตามอำเภอใจ ไม่มีการลงชื่อเข้าใช้ แต่ MLE จะลดความแตกต่างของ KL ให้น้อยที่สุดระหว่างการกระจายจริงและเช่นจะย่อเล็กสุดฉ~ฉ~\tilde fฉθ( x )ฉθ(x)f_\theta(x) KL (ฉ~∥ฉθ) =∫+ ∞- ∞ฉ~( x ) [บันทึกฉ~( x ) - บันทึกฉθ( x ) ]dxKL(ฉ~∥ฉθ)=∫-∞+∞ฉ~(x)[เข้าสู่ระบบฉ~(x)-เข้าสู่ระบบฉθ(x)]dx KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) …