ทำไม KL แตกต่างกันจึงไม่เป็นลบ


18

ทำไม KL แตกต่างกันจึงไม่เป็นลบ

จากมุมมองของทฤษฎีสารสนเทศฉันมีความเข้าใจที่เข้าใจง่าย:

บอกว่ามีสองตระการตาและBซึ่งจะประกอบด้วยชุดเดียวกันขององค์ประกอบที่โดดเด่นด้วยx p ( x )และq ( x )คือการแจกแจงความน่าจะเป็นที่แตกต่างกันมากกว่าชุดAและBตามลำดับABxp(x)q(x)AB

จากมุมมองของทฤษฎีข้อมูลlog2(P(x))เป็นจำนวนเงินที่น้อยที่สุดของบิตที่จำเป็นต้องใช้สำหรับการบันทึกเป็นองค์ประกอบxทั้งมวล ดังนั้นความคาดหวัง x e n s e m b l e - p ( x ) ln ( p ( x ) ) สามารถตีความได้ว่าอย่างน้อยจำนวนบิตที่เราต้องการสำหรับบันทึกองค์ประกอบในAโดยเฉลี่ยA

xensemblep(x)ln(p(x))
A

เนื่องจากสูตรนี้ให้ขอบเขตที่ต่ำกว่าบนบิตที่เราต้องการโดยเฉลี่ยดังนั้นสำหรับกลุ่มที่แตกต่างกันซึ่งทำให้มีการกระจายความน่าจะเป็นที่ต่างกันq ( x )ขอบเขตที่ให้สำหรับแต่ละองค์ประกอบxจะไม่ใช่บิตที่แน่นอน มอบให้โดยp ( x )ซึ่งหมายถึงการคาดหวังx e n s e m b l e - p ( x ) ln ( q ( x ) )Bq(x)xp(x)

xensemblep(x)ln(q(x))
ความยาวเฉลี่ยนี้จะมากกว่าอดีตที่แน่นอนซึ่งนำไปสู่
ฉันไม่ใส่ที่นี่เนื่องจากp(x)และq(x)แตกต่างกัน
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

นี่คือความเข้าใจที่เข้าใจง่ายของฉันมีวิธีการทางคณิตศาสตร์อย่างแท้จริงในการพิสูจน์ความแตกต่างของ KL ที่ไม่ใช่เชิงลบหรือไม่? ปัญหาสามารถระบุได้เป็น:

p(x)q(x)+p(x)dx=1+q(x)dx=1

+p(x)lnp(x)q(x)

สิ่งนี้จะพิสูจน์ได้อย่างไร? หรือสิ่งนี้สามารถพิสูจน์ได้โดยไม่มีเงื่อนไขพิเศษ?


1
หากคุณเข้าใจหลักฐานของความไม่เท่าเทียมของ Fanoมันเป็นเรื่องง่ายที่จะได้มาซึ่งความไม่เป็นลบของเอนโทรปีสัมพัทธ์
Lerner Zhang

คำตอบ:


30

พิสูจน์ 1:

lnaa1a>0

DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

ln

xp(x)log2p(x)xp(x)log2q(x)

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

เหตุผลที่ฉันไม่ได้รวมสิ่งนี้ไว้เป็นหลักฐานแยกต่างหากก็เพราะว่าถ้าคุณต้องขอให้ฉันพิสูจน์ความไม่เท่าเทียมของกิ๊บส์ฉันจะต้องเริ่มจากการไม่ปฏิเสธของการแยกทาง KL และทำข้อพิสูจน์เดียวกันจากด้านบน


i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

DKL(p||q)0

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

where we have used the Log sum inequality at (b).


Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

where at (c) we have used Jensen's inequality and the fact that log is a concave function.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.