Kullback-Leibler Divergence นั้นไม่ได้เป็นตัวชี้วัดที่เหมาะสมเนื่องจากมันไม่ได้เป็นแบบสมมาตรและมันก็ไม่ได้ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยม ดังนั้น "บทบาท" ที่แสดงโดยการแจกแจงสองแบบจึงแตกต่างกันและเป็นสิ่งสำคัญที่จะต้องกระจายบทบาทเหล่านี้ตามปรากฏการณ์โลกแห่งความจริงที่อยู่ระหว่างการศึกษา
เมื่อเราเขียน (OP ได้คำนวณการแสดงออกโดยใช้ลอการิทึมฐาน 2)
K(P||Q)=∑ilog2(pi/qi)pi
เราถือว่าการแจกแจงแบบเป็น "การกระจายเป้าหมาย" (โดยปกติถือว่าเป็นการกระจายจริง) ซึ่งเราประมาณโดยใช้การแจกแจงแบบQPQ
ตอนนี้
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
ที่เป็นเอนโทรปีนอนส์ของการกระจายPและ- E P ( LN ( Q ) )เรียกว่า "ข้ามเอนโทรปีของPและQ " -also ที่ไม่สมมาตรH(P)P−EP(ln(Q))PQ
การเขียน
K(P||Q)=H(P,Q)−H(P)
P
ดังนั้นไม่ใช่ KL-divergence ดีกว่าที่จะไม่ถูกตีความว่าเป็น "การวัดระยะทาง" ระหว่างการแจกแจง แต่เป็นการวัดการเพิ่มขึ้นของเอนโทรปีเนื่องจากการใช้การประมาณการกระจายตัวที่แท้จริงมากกว่าการกระจายตัวที่แท้จริง
ดังนั้นเราจึงอยู่ในทฤษฎีที่ดินสารสนเทศ ที่จะได้ยินจากเจ้านาย (ปก & โทมัส) "
PH(P)QH(P)+K(P||Q)
คนฉลาดเดียวกันพูด
... มันไม่ใช่ระยะห่างที่แท้จริงระหว่างการแจกแจงเนื่องจากมันไม่สมมาตรและไม่ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยม อย่างไรก็ตามมันมักจะมีประโยชน์ในการคิดของเอนโทรปีสัมพัทธ์เป็น "ระยะทาง" ระหว่างการแจกแจง
แต่วิธีการหลังนี้มีประโยชน์ส่วนใหญ่เมื่อมีคนพยายามลด KL-divergence เพื่อปรับขั้นตอนการประมาณค่าให้เหมาะสม สำหรับการตีความค่าตัวเลขของมันต่อ seมันไม่มีประโยชน์และเราควรเลือกวิธีการ "เพิ่มค่าเอนโทรปี"
สำหรับการแจกแจงเฉพาะของคำถาม (ใช้ลอการิทึมฐาน 2 เสมอ)
K(P||Q)=0.49282,H(P)=1.9486
QP