การลดข้ามเอนโทรปีมักใช้เป็นวัตถุประสงค์การเรียนรู้ในรูปแบบการกำเนิดที่ p คือการแจกแจงที่แท้จริงและ q คือการกระจายการเรียนรู้
กากบาทไขว้ของ p และ q เท่ากับเอนโทรปีของ p บวกกับการแยก KL ระหว่าง p และ q
H( p , q) = H( p ) + DKL( p | | q)
คุณสามารถคิดว่าเป็นค่าคงที่เนื่องจากมาโดยตรงจากข้อมูลการฝึกอบรมและไม่ได้เรียนรู้จากแบบจำลอง ดังนั้นเฉพาะคำที่แตกต่าง KL จึงมีความสำคัญ แรงจูงใจสำหรับ KL แตกต่างเป็นระยะห่างระหว่างการแจกแจงความน่าจะเป็นคือมันบอกคุณว่าได้รับข้อมูลจำนวนเท่าใดโดยใช้การแจกแจง p แทนการประมาณ qpH( p )พี
โปรดทราบว่า KL divergence ไม่ใช่การวัดระยะทางที่เหมาะสม สำหรับสิ่งหนึ่งมันไม่สมมาตรใน p และ q หากคุณต้องการตัวชี้วัดระยะทางสำหรับการแจกแจงความน่าจะเป็นคุณจะต้องใช้อย่างอื่น แต่หากคุณใช้คำว่า "ระยะทาง" อย่างไม่เป็นทางการคุณสามารถใช้ KL divergence ได้