วิธีการคำนวณ Kullback-Leibler divergence / distance


10

ฉันมีชุดข้อมูลสามชุด X, Y และ Z ชุดข้อมูลแต่ละชุดจะกำหนดความถี่ของเหตุการณ์ที่เกิดขึ้น ตัวอย่างเช่น:

ชุดข้อมูล X: E1: 4, E2: 0, E3: 10, E4: 5, E5: 0, E6: 0 และอื่น ๆ ..
ชุดข้อมูล Y: E1: 2, E2: 3, E3: 7, E4: 6, E5: 0, E6: 0 และอื่น ๆ ..
ชุดข้อมูล Z: E1: 0, E2: 4, E3: 8, E4: 4, E5: 1, E6: 0 และอื่น ๆ ..

ฉันต้องหา KL-divergence ระหว่าง X และ Y และระหว่าง X และ Z ดังที่คุณเห็นเหตุการณ์บางอย่างจะมีค่า 0 และไม่เป็นศูนย์ สำหรับบางเหตุการณ์ทั้งสามชุดข้อมูลเป็น 0

ฉันจะชื่นชมถ้ามีคนสามารถช่วยฉันค้นหาความแตกต่างของ KL สำหรับเรื่องนี้ ฉันไม่ได้เป็นนักสถิติมากนักดังนั้นฉันจึงไม่ค่อยมีความคิด บทเรียนที่ฉันดูทางออนไลน์นั้นซับซ้อนเกินไปสำหรับความเข้าใจของฉัน

คำตอบ:


11

เพื่อตอบคำถามของคุณเราควรระลึกถึงคำจำกัดความของ KL divergence :

DKL(Y||X)=i=1Nln(YiXi)Yi

ก่อนอื่นคุณต้องไปจากสิ่งที่คุณต้องแจกแจงความน่าจะเป็น สำหรับสิ่งนี้คุณควรทำให้ข้อมูลของคุณเป็นปกติโดยที่จะรวมเป็นหนึ่ง:

Yi:=YiXi:=Xii=1NXi ; ; Zฉัน:=ZฉันYi:=Yii=1NYiZi:=Zii=1NZi

จากนั้นสำหรับค่าที่ไม่ต่อเนื่องเรามีสมมติฐานที่สำคัญอย่างหนึ่งที่จำเป็นในการประเมิน KL-divergence และมักถูกละเมิด:

Y i = 0Xi=0ควรกล่าวเป็นนัยว่า0Yi=0

ในกรณีที่ทั้งและเท่ากับศูนย์จะถือว่าเป็นศูนย์ (เป็นค่า จำกัด )Y i ln ( Y i / X i ) Y iXiYiln(Yi/Xi)Yi

ในชุดข้อมูลของคุณหมายความว่าคุณสามารถค้นหาแต่ไม่ใช่ตัวอย่างเช่น (เนื่องจากรายการที่สอง)D K L ( Y | | X )DKL(X||Y)DKL(Y||X)

สิ่งที่ฉันสามารถให้คำแนะนำจากมุมมองในทางปฏิบัติคือ:

อาจทำให้กิจกรรมของคุณ "ใหญ่ขึ้น" ซึ่งคุณจะมีศูนย์น้อยลง

หรือรับข้อมูลเพิ่มเติมเช่นคุณจะครอบคลุมเหตุการณ์ที่เกิดขึ้นได้ยากด้วยรายการอย่างน้อยหนึ่งรายการ

หากคุณไม่สามารถใช้คำแนะนำใด ๆ ข้างต้นคุณอาจจำเป็นต้องค้นหาตัวชี้วัดอื่น ๆ ระหว่างการแจกแจง ตัวอย่างเช่น,

ข้อมูลร่วมกันซึ่งนิยามเป็นขวา) โดยที่คือความน่าจะเป็นร่วมของสองเหตุการณ์p(Xi,Yi)I(X,Y)=i=1Nj=1Np(Xi,Yj)ln(p(Xi,Yj)p(Xi)p(Yj))p(Xi,Yi)

หวังว่ามันจะช่วย


0

ป้อนคำอธิบายรูปภาพที่นี่

คุณอาจต้องการตั้งค่า \ epsilon เป็นค่าที่น้อยมาก 0.00001 (พูด) และดำเนินการต่อด้วยค่าที่ไม่เป็นศูนย์สำหรับความน่าจะเป็นทั้งหมดและคำนวณคะแนน KL

โปรดแจ้งให้เราทราบหากใช้งานได้


2
โปรดเพิ่มการอ้างอิงที่เหมาะสมสำหรับรูปภาพที่แนบมาถ้าไม่ใช่ของคุณ (ไม่เช่นนั้นคุณสามารถใช้เพื่อเรียงพิมพ์) และยังระบุว่ามันใช้กับปัญหาเฉพาะที่เป็นอย่างไร (สหกรณ์ระบุไว้ชัดเจนว่าเขาไม่ได้มีประสบการณ์มากเกินไปในสถิติคณิตศาสตร์.)LATEX
CHL
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.