การปรับระยะ Kullback-Leibler?


28

มองไปที่ภาพนี้: ป้อนคำอธิบายรูปภาพที่นี่

ถ้าเราดึงตัวอย่างจากความหนาแน่นของสีแดงเราคาดว่าค่าบางค่าจะน้อยกว่า 0.25 ในขณะที่มันเป็นไปไม่ได้ที่จะสร้างตัวอย่างจากการกระจายตัวสีน้ำเงิน ด้วยเหตุนี้ระยะทาง Kullback-Leibler จากความหนาแน่นสีแดงถึงความหนาแน่นสีน้ำเงินจึงไม่มีที่สิ้นสุด อย่างไรก็ตามเส้นโค้งทั้งสองนั้นไม่ได้มีความแตกต่างในแง่ของ "ความเป็นธรรมชาติ"

นี่คือคำถามของฉัน: มันมีการปรับระยะ Kullback - Leibler ที่จะอนุญาตให้มีระยะห่างแน่นอนระหว่างสองเส้นโค้งนี้หรือไม่?


1
ใน "ความรู้สึกตามธรรมชาติ" คืออะไรเส้นโค้งเหล่านี้ "ไม่ชัดเจน"? ความใกล้ชิดที่ใช้งานง่ายนี้เกี่ยวข้องกับคุณสมบัติทางสถิติอย่างไร (ฉันสามารถคิดถึงคำตอบได้หลายข้อ แต่ฉันสงสัยว่าคุณมีอะไรอยู่ในใจ)
whuber

1
อืม ... พวกเขาค่อนข้างสนิทกันในแง่ที่ว่าทั้งคู่ถูกนิยามโดยค่าบวก; พวกเขาทั้งสองเพิ่มขึ้นและลดลง; ทั้งสองมีความคาดหวังเหมือนกัน และระยะทาง Kullback Leibler คือ "เล็ก" ถ้าเรา จำกัด ส่วนหนึ่งของแกน x ... แต่เพื่อที่จะเชื่อมโยงแนวคิดที่เข้าใจง่ายเหล่านี้เข้ากับคุณสมบัติทางสถิติใด ๆ ฉันจะต้องมีคำจำกัดความที่เข้มงวดสำหรับคุณสมบัติเหล่านี้ ...
ocram

คำตอบ:


18

คุณอาจดูบทที่ 3 ของ Devroye, Gyorfi และ Lugosi, ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ , Springer, 1996 ดูโดยเฉพาะอย่างยิ่งหัวข้อ -divergencesf

-Divergences สามารถดูได้ในลักษณะทั่วไปของ Kullback - Leibler (หรือมิฉะนั้น KL สามารถดูเป็นกรณีพิเศษของ f -Divergence)ff

รูปแบบทั่วไปคือ

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

ที่เป็นตัวชี้วัดที่ dominates มาตรการที่เกี่ยวข้องกับPและQและF ( )เป็นฟังก์ชั่นที่น่าพอใจนูน( 1 ) = 0 (ถ้าp ( x )และq ( x )มีความหนาแน่นเทียบกับการวัด Lebesgue เพียงใช้สัญกรณ์d xแทนλ ( d x )และคุณสบายดี)λpqf()f(1)=0p(x)q(x)dxλ(dx)

เรากู้ KL โดยการ x เราสามารถรับความแตกต่างของ Hellinger ผ่านf ( x ) = ( 1 - f(x)=xlogxและเราได้รับความแปรปรวนทั้งหมดหรือL1ระยะทางโดยหาf(x)= 1f(x)=(1x)2L1. หลังให้f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

โปรดทราบว่าคำตอบสุดท้ายนี้อย่างน้อยให้คำตอบที่แน่นอน

ในหนังสือเล่มเล็กอีกเล่มเรื่องการประเมินความหนาแน่น: มุมมองL1 , Devroye โต้แย้งอย่างยิ่งสำหรับการใช้ระยะทางหลังนี้เนื่องจากคุณสมบัติค่าคงที่ที่ดีจำนวนมาก หนังสือเล่มหลังนี้อาจจะยากกว่านิดหน่อยที่จะได้หนังสือมาก่อนและตามที่ชื่อแนะนำมีความเชี่ยวชาญมากกว่าเล็กน้อย


ภาคผนวก : จากคำถามนี้ฉันก็ตระหนักว่าปรากฏว่ามาตรการที่ @Didier เสนอคือ (สูงถึงค่าคงที่) หรือที่เรียกว่า Jensen-Shannon Divergence หากคุณไปตามลิงก์ไปยังคำตอบที่ให้ไว้ในคำถามนั้นคุณจะเห็นว่าปรากฎว่าสแควร์รูทของปริมาณนี้จริง ๆ แล้วเป็นเมตริกและเคยได้รับการยอมรับมาก่อนหน้านี้ในวรรณคดีว่าเป็นกรณีพิเศษของ -divergence . ฉันพบว่ามันน่าสนใจที่เราดูเหมือนจะ "รวมตัวกันใหม่" ล้อ (ค่อนข้างเร็ว) ผ่านการสนทนาของคำถามนี้ การตีความที่ฉันให้ไว้ในความคิดเห็นด้านล่าง @ การตอบสนองของ Didier ได้รับการยอมรับก่อนหน้านี้ด้วย รอบ ๆ นั้นดูเรียบร้อยf


1
ดีมาก! ฉันจะพยายามหา "ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ" และเพื่อทำความเข้าใจกับบทที่ 3!
ocram

1
คำตอบที่ดีโปรดทราบว่าบ่อยครั้งที่ถูกกำหนดอีกวิธีหนึ่งซึ่งทำให้ระยะทางL 1ครึ่ง DTVL1
robin girard

1
@robin ขอบคุณสำหรับความคิดเห็นของคุณ ใช่ฉันตระหนักถึงสิ่งนี้ ฉันแค่พยายามหลีกเลี่ยงค่าคงที่ไม่เป็นระเบียบในการแสดง แต่การพูดอย่างเคร่งครัดคุณพูดถูก ฉันได้ทำการปรับปรุงแล้ว
พระคาร์ดินัล

3
ภาคผนวกของคุณเป็นข้อมูลที่มีประโยชน์ที่สุดที่ฉันพบในสถิติตอนนี้ ขอขอบคุณอย่างอบอุ่นที่สุดสำหรับสิ่งนี้ ฉันแค่ทำซ้ำการอ้างอิงที่คุณให้ที่นี่: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres และ Schindelin ซึ่งเป็นตัวชี้วัดใหม่สำหรับการแจกแจงความน่าจะเป็นIEEE Trans บนข้อมูล ของเจ้า ฉบับ 49, ไม่มี 3 ก.ค. 2003 หน้า 1858-1860
ทำ

1
@Didier ก็เป็นอุบัติเหตุที่มีความสุขมากกว่าสิ่งอื่นใด ไม่มีใครตอบคำถามอีกต่อไปดังนั้นฉันจึงตัดสินใจลองคิดดูว่า Jensen-Shannon Divergence เป็นใครในตอนแรก เมื่อฉันพบคำจำกัดความแล้วดูเหมือนว่าเหมาะสมที่จะเชื่อมโยงคำถามทั้งสองผ่านทางภาคผนวกของฉัน ฉันดีใจที่คุณพบว่ามีประโยชน์ ความนับถือ.
พระคาร์ดินัล

19

Kullback-Leibler แตกต่างของPด้วยความเคารพQเป็นอนันต์เมื่อPไม่ได้อย่างต่อเนื่องเกี่ยวกับการQนั่นคือเมื่อมีอยู่ชุดที่วัดดังกล่าวว่าκ(P|Q)PQPQAและ P ( ) 0 ยิ่งไปกว่านั้นความแตกต่าง KL ไม่สมมาตรในแง่ที่โดยทั่วไป κ ( P Q ) κ ( Q Q(A)=0P(A)0 ) จำได้ว่า κ ( P | Q ) = P ล็อก( Pκ(PQ)κ(QP) วิธีหนึ่งในข้อเสียทั้งสองนี้ซึ่งยังคงยึดตามความแตกต่างของ KL คือการแนะนำจุดกึ่งกลาง R=1

κ(PQ)=Plog(PQ).
ดังนั้นRเป็นตัวชี้วัดความน่าจะเป็นและPและQอยู่เสมออย่างต่อเนื่องอย่างที่เกี่ยวกับการวิจัย ดังนั้นหนึ่งสามารถพิจารณา "ระยะทาง" ระหว่างPและQยังคงอยู่บนพื้นฐานของความแตกต่าง KL แต่การใช้Rหมายถึง η(P,Q)=κ(P|R)+κ(Q|R) จากนั้นη(P
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
เป็นค่าลบและ จำกัด สำหรับ Pและ Q ทุกอัน , ηเป็นสมมาตรในแง่ที่ η ( P , Q ) = η ( Q , P )สำหรับทุก Pและ Q , และ η ( P , Q ) = 0 iff P = Qη(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

สูตรเทียบเท่า

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

ภาคผนวก 1การแนะนำของจุดกึ่งกลางของและQไม่ได้โดยพลการในแง่ที่ว่า η ( P , Q ) = นาที[ κ ( P | ) + κ ( Q | ) ] , ที่ต่ำสุดเป็นมากกว่าชุดของ มาตรการความน่าจะเป็นPQ

η(P,Q)=min[κ(P)+κ(Q)],

ภาคผนวก 2 @ cardinal กล่าวว่ายังเป็นf -divergence สำหรับฟังก์ชันนูน f ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
ff(x)=xlogx(1+x)log(1+x2)

1
η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)

3
นี่ไม่ใช่แค่ความแตกต่างของเซ่น - แชนนอนใช่ไหม
Memming


"where the minimum is over the set of probability measures." I like this characterization of the Jensen–Shannon divergence. Is there a proof of it somewhere?
user76284

10

The Kolmogorov distance between two distributions P and Q is the sup norm of their CDFs. (This is the largest vertical discrepancy between the two graphs of the CDFs.) It is used in distributional testing where P is an hypothesized distribution and Q is the empirical distribution function of a dataset.

It is hard to characterize this as an "adaptation" of the KL distance, but it does meet the other requirements of being "natural" and finite.

Incidentally, because the KL divergence is not a true "distance," we don't have to worry about preserving all the axiomatic properties of a distance. We can maintain the non-negativity property while making the values finite by applying any monotonic transformation R+[0,C] for some finite value C. The inverse tangent will do fine, for instance.


1
Thank you for your suggestion about the Kolmogorov distance. Can you make your comment about the monotonic transformation a little bit more explicit? Thx
ocram

1
@Marco I don't understand how one could be any more explicit. Do you mean restating what I wrote in terms of a formula such as arctan(KL(P,Q)) or f(KL(P,Q)) for f:R+[0,C] with xy implies f(x)f(y) for all x,y0?
whuber

1
Yes, that's what I meant :-) I was not sure on what to apply the transformation. Now, it is clear, thx
ocram

1
@Marco: I am lost. Do you settle for the Kolmogorov distance (which is always finite but has nothing in common with KL divergence)? Or for a bounded monotone transform of KL divergence (such as arctan)? In the example of your post (and in any other not absolutely continuous example), the latter produces the supremum of the transform (π/2 if you settle for arctan). In effect, this abandons any idea of estimating a distance between such probability measures more precisely than saying they are far far away (whether you encode this by π/2 or by + is irrelevant).
Did

@Didier Yes, the transformed KL divergence (when symmetrized, as you describe) might not satisfy the triangle inequality and therefore would not be a distance, but it would still define a topology (which would likely be metrizable). You would thereby give up little or nothing. I remain agnostic about the merits of doing any of this: it seems to me this is just a way of papering over the difficulties associated with infinite values of the KL divergence in the first place.
whuber

2

Yes there does, Bernardo and Reuda defined something called the "intrinsic discrepancy" which for all purposes is a "symmetrised" version of the KL-divergence. Taking the KL divergence from P to Q to be κ(PQ) The intrinsic discrepancy is given by:

δ(P,Q)min[κ(PQ),κ(QP)]

Searching intrinsic discrepancy (or bayesian reference criterion) will give you some articles on this measure.

In your case, you would just take the KL-divergence which is finite.

Another alternative measure to KL is Hellinger distance

EDIT: clarification, some comments raised suggested that the intrinsic discrepancy will not be finite when one density 0 when the other is not. This is not true if the operation of evaluating the zero density is carried out as a limit Q0 or P0 . The limit is well defined, and it is equal to 0 for one of the KL divergences, while the other one will diverge. To see this note:

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Taking limit as P0 over a region of the integral, the second integral diverges, and the first integral converges to 0 over this region (assuming the conditions are such that one can interchange limits and integration). This is because limz0zlog(z)=0. Because of the symmetry in P and Q the result also holds for Q.


1
Even the "intrinsic discrepancy" will be infinite when P is zero with positive probability for Q and vice versa, even if P and Q are otherwise identical.
whuber

1
Yes... I am afraid that the intrinsic discrepancy does not fulfil the requirement. But thank you for the suggestion. Any other suggestion would be appreciated.
ocram

1
It does fulfil the requirement, if you restrict the support of the blue density to be where it has strictly positive support, just as you have for the red one (>0)
probabilityislogic

3
@probabilityislogic: I do not unerstand your last remarks. First, let us give their proper names to the notions involved and say that P is absolutely continuous with respect to Q (denoted PQ) if, for every measurable A, Q(A)=0 implies P(A)=0. Now, notwithstanding your somewhat mysterious (to me) limit considerations, your δ(P,Q) is finite iff PQ or QP. .../...
Did

2
.../... A way out of the conundrum you seem to be dug into might be to introduce the mid-point measure P+Q. Since PP+Q and QP+Q, the quantity η(P,Q):=κ(P|P+Q)+κ(Q|P+Q) is always finite. Furthermore η(P,Q)=0 iff P=Q and η is symmetric. Hence η(P,Q) indeed measures a kind of "distance" between P and Q.
Did
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.