พิจารณาคชกรรมหลังX asymptotically, สูงสุดเกิดขึ้นใน MLE ประมาณการที่เพิ่งเพิ่มโอกาส(X)
แนวคิดทั้งหมดเหล่านี้ - นักบวชชาว Bayesian, เพิ่มความเป็นไปได้สูงสุด - ให้เสียงที่ดีเลิศและไม่เป็นไปตามอำเภอใจ ไม่มีการลงชื่อเข้าใช้
แต่ MLE จะลดความแตกต่างของ KL ให้น้อยที่สุดระหว่างการกระจายจริงและเช่นจะย่อเล็กสุด
ว้าว - บันทึกเหล่านี้มาจากไหน ทำไม KL แตกต่างกันเป็นพิเศษ?
ยกตัวอย่างเช่นทำไมการลดความแตกต่างที่แตกต่างไม่ตรงกับแนวคิดที่มีหลักการและแรงบันดาลใจมากที่สุดของการตกแต่งโปสเตอร์ของเบย์และการเพิ่มโอกาสสูงสุดด้านบน?
ดูเหมือนจะมีบางสิ่งที่พิเศษเกี่ยวกับ KL divergence และ / หรือบันทึกในบริบทนี้ แน่นอนว่าเราสามารถโยนมือของเราขึ้นไปในอากาศและบอกว่าเป็นวิธีคณิตศาสตร์ แต่ฉันสงสัยว่าอาจมีสัญชาตญาณหรือการเชื่อมต่อที่ลึกกว่าที่จะเปิดเผย