การวิเคราะห์ความแตกต่างของ Kullback-Leibler


18

ขอให้เราพิจารณาการแจกแจงความน่าจะเป็นสองแบบต่อไปนี้

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

ฉันได้คำนวณการ Kullback-Leibler ซึ่งเท่ากับ0.492820258ฉันต้องการที่จะรู้โดยทั่วไปหมายเลขนี้แสดงให้ฉันเห็นอะไร? โดยทั่วไปแล้วการเบี่ยงเบน Kullback-Leibler แสดงให้ฉันเห็นว่าการกระจายความน่าจะเป็นหนึ่งเดียวจากอีกอันนั้นอยู่เท่าใด มันคล้ายกับคำศัพท์เอนโทรปี แต่ในแง่ของตัวเลขมันหมายถึงอะไร? หากฉันมีผลลัพธ์เป็นผลลัพธ์จาก 0.49 ฉันสามารถพูดได้ว่าการกระจายตัวประมาณหนึ่งตัวนั้นอยู่ไกลจากอีก 50%?0.492820258


ดูการสนทนาที่นี่ซึ่งอาจมีความช่วยเหลือ
Glen_b -Reinstate Monica

คุณอ่านบทความวิกิพีเดียหรือไม่?
Neil G

คำตอบ:


42

Kullback-Leibler Divergence นั้นไม่ได้เป็นตัวชี้วัดที่เหมาะสมเนื่องจากมันไม่ได้เป็นแบบสมมาตรและมันก็ไม่ได้ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยม ดังนั้น "บทบาท" ที่แสดงโดยการแจกแจงสองแบบจึงแตกต่างกันและเป็นสิ่งสำคัญที่จะต้องกระจายบทบาทเหล่านี้ตามปรากฏการณ์โลกแห่งความจริงที่อยู่ระหว่างการศึกษา

เมื่อเราเขียน (OP ได้คำนวณการแสดงออกโดยใช้ลอการิทึมฐาน 2)

K(P||Q)=ilog2(pi/qi)pi

เราถือว่าการแจกแจงแบบเป็น "การกระจายเป้าหมาย" (โดยปกติถือว่าเป็นการกระจายจริง) ซึ่งเราประมาณโดยใช้การแจกแจงแบบQPQ

ตอนนี้

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

ที่เป็นเอนโทรปีนอนส์ของการกระจายPและ- E P ( LN ( Q ) )เรียกว่า "ข้ามเอนโทรปีของPและQ " -also ที่ไม่สมมาตรH(P)PEP(ln(Q))PQ

การเขียน

K(P||Q)=H(P,Q)H(P)

P

ดังนั้นไม่ใช่ KL-divergence ดีกว่าที่จะไม่ถูกตีความว่าเป็น "การวัดระยะทาง" ระหว่างการแจกแจง แต่เป็นการวัดการเพิ่มขึ้นของเอนโทรปีเนื่องจากการใช้การประมาณการกระจายตัวที่แท้จริงมากกว่าการกระจายตัวที่แท้จริง

ดังนั้นเราจึงอยู่ในทฤษฎีที่ดินสารสนเทศ ที่จะได้ยินจากเจ้านาย (ปก & โทมัส) "

PH(P)QH(P)+K(P||Q)

คนฉลาดเดียวกันพูด

... มันไม่ใช่ระยะห่างที่แท้จริงระหว่างการแจกแจงเนื่องจากมันไม่สมมาตรและไม่ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยม อย่างไรก็ตามมันมักจะมีประโยชน์ในการคิดของเอนโทรปีสัมพัทธ์เป็น "ระยะทาง" ระหว่างการแจกแจง

แต่วิธีการหลังนี้มีประโยชน์ส่วนใหญ่เมื่อมีคนพยายามลด KL-divergence เพื่อปรับขั้นตอนการประมาณค่าให้เหมาะสม สำหรับการตีความค่าตัวเลขของมันต่อ seมันไม่มีประโยชน์และเราควรเลือกวิธีการ "เพิ่มค่าเอนโทรปี"

สำหรับการแจกแจงเฉพาะของคำถาม (ใช้ลอการิทึมฐาน 2 เสมอ)

K(P||Q)=0.49282,H(P)=1.9486

QP


คำตอบที่เป็นประโยชน์และให้ข้อมูลอย่างมาก
MadHatter

1

KL Divergence วัดการสูญเสียข้อมูลที่จำเป็นในการแสดงสัญลักษณ์จาก P โดยใช้สัญลักษณ์จาก Q หากคุณมีค่า 0.49 ซึ่งหมายความว่าโดยเฉลี่ยคุณสามารถเข้ารหัสสองสัญลักษณ์จาก P ด้วยสัญลักษณ์สองตัวที่สอดคล้องกันจาก Q พร้อมกับข้อมูลเพิ่มเติมหนึ่งบิต .


1

พิจารณาแหล่งข้อมูลที่มีการแจกจ่าย P ที่ถูกเข้ารหัสโดยใช้รหัสในอุดมคติสำหรับแหล่งข้อมูลที่มีการแจกจ่าย Q. ค่าใช้จ่ายในการเข้ารหัสพิเศษสูงกว่าค่าใช้จ่ายในการเข้ารหัสขั้นต่ำที่จะบรรลุได้โดยใช้รหัสที่เหมาะสำหรับPเป็นความแตกต่าง KL

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.