KL divergence เป็นวิธีธรรมชาติในการวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็นสองแบบ เอนโทรปีของการกระจายพีจะช่วยให้จำนวนที่น้อยที่สุดของบิตต่อข้อความที่จะต้อง (โดยเฉลี่ย) เพื่อ losslessly เหตุการณ์เข้ารหัสดึงออกมาจากพี การบรรลุขอบเขตนี้จะต้องใช้รหัสที่ดีที่สุดที่ออกแบบมาสำหรับpซึ่งกำหนดคำรหัสสั้นลงให้กับเหตุการณ์ความน่าจะเป็นที่สูงขึ้น D K L ( p ∥ q )สามารถตีความได้ว่าเป็นจำนวนที่คาดหวังของบิตพิเศษต่อข้อความที่จำเป็นในการเข้ารหัสเหตุการณ์ที่ดึงออกมาจากการกระจายที่แท้จริงpH(p)pppDKL(p∥q)pถ้าใช้รหัสที่ดีที่สุดสำหรับการกระจายมากกว่าพี มันมีคุณสมบัติที่ดีสำหรับการเปรียบเทียบการกระจาย ตัวอย่างเช่นถ้าpและqเท่ากันค่าเบี่ยงเบนของ KL คือ 0qppq
H(p,q)pqDKL(p∥q)H(p,q)pH(p,q)qppH(p,q)p
KL แตกต่างและเอนโทรปีข้ามมีความเกี่ยวข้องดังนี้:
DKL(p∥q)=H(p,q)−H(p)
pqp
pq
pH(p)pH(p)p
pqDKL(p∥q)pqj∣ipj∣i คือ Kullback-Leibler divergence (ซึ่งในกรณีนี้เท่ากับ cross-entropy ถึงค่าคงที่เพิ่มเติม) "
ฟานเดอร์อัและฮินตัน (2008) การแสดงข้อมูลโดยใช้ t-SNE