เพื่อตอบคำถามของคุณเราควรระลึกถึงคำจำกัดความของ KL divergence :
DKL( Y| | X) = ∑i = 1ยังไม่มีข้อความLN( YผมXผม) Yผม
ก่อนอื่นคุณต้องไปจากสิ่งที่คุณต้องแจกแจงความน่าจะเป็น สำหรับสิ่งนี้คุณควรทำให้ข้อมูลของคุณเป็นปกติโดยที่จะรวมเป็นหนึ่ง:
Yi:=YiXผม: = XผมΣยังไม่มีข้อความi = 1Xผม ; ; Zฉัน:=ZฉันYผม: = YผมΣยังไม่มีข้อความi = 1YผมZผม: = ZผมΣยังไม่มีข้อความi = 1Zผม
จากนั้นสำหรับค่าที่ไม่ต่อเนื่องเรามีสมมติฐานที่สำคัญอย่างหนึ่งที่จำเป็นในการประเมิน KL-divergence และมักถูกละเมิด:
Y i = 0Xผม= 0ควรกล่าวเป็นนัยว่า0Yผม= 0
ในกรณีที่ทั้งและเท่ากับศูนย์จะถือว่าเป็นศูนย์ (เป็นค่า จำกัด )Y i ln ( Y i / X i ) Y iXผมYผมLN( Yผม/ Xผม) Yผม
ในชุดข้อมูลของคุณหมายความว่าคุณสามารถค้นหาแต่ไม่ใช่ตัวอย่างเช่น (เนื่องจากรายการที่สอง)D K L ( Y | | X )DKL( X| | Y)DKL( Y| | X)
สิ่งที่ฉันสามารถให้คำแนะนำจากมุมมองในทางปฏิบัติคือ:
อาจทำให้กิจกรรมของคุณ "ใหญ่ขึ้น" ซึ่งคุณจะมีศูนย์น้อยลง
หรือรับข้อมูลเพิ่มเติมเช่นคุณจะครอบคลุมเหตุการณ์ที่เกิดขึ้นได้ยากด้วยรายการอย่างน้อยหนึ่งรายการ
หากคุณไม่สามารถใช้คำแนะนำใด ๆ ข้างต้นคุณอาจจำเป็นต้องค้นหาตัวชี้วัดอื่น ๆ ระหว่างการแจกแจง ตัวอย่างเช่น,
ข้อมูลร่วมกันซึ่งนิยามเป็นขวา) โดยที่คือความน่าจะเป็นร่วมของสองเหตุการณ์p(Xi,Yi)ผม( X, วาย) = ∑ยังไม่มีข้อความi = 1Σยังไม่มีข้อความj = 1p ( X)ผม, วายJ) ln( p ( X)ผม, วายJ)p ( X)ผม) p ( YJ))p ( X)ผม, วายผม)
หวังว่ามันจะช่วย