การได้รับสารสนเทศข้อมูลร่วมกันและมาตรการที่เกี่ยวข้อง


33

Andrew More กำหนดข้อมูลที่ได้รับเป็น:

IG(Y|X)=H(Y)H(Y|X)

ที่H(Y|X)เป็นเอนโทรปีเงื่อนไข อย่างไรก็ตามวิกิพีเดียเรียกปริมาณดังกล่าวข้างต้นข้อมูลซึ่งกันและกัน

วิกิพีเดียในอีกด้านหนึ่งกำหนดข้อมูลที่ได้รับเมื่อ Kullback – Leibler divergence (aka data divergence หรือ entropy สัมพัทธ์) ระหว่างตัวแปรสุ่มสองตัว:

DKL(P||Q)=H(P,Q)H(P)

ที่H(P,Q)ถูกกำหนดให้เป็นข้ามเอนโทรปี

คำจำกัดความทั้งสองนี้ดูเหมือนจะไม่สอดคล้องกัน

ฉันได้เห็นผู้เขียนคนอื่นพูดถึงแนวคิดที่เกี่ยวข้องเพิ่มเติมอีกสองแนวคิดคือเอนโทรปีต่างกันและการได้รับข้อมูลญาติ

คำจำกัดความหรือความสัมพันธ์ที่แม่นยำระหว่างปริมาณเหล่านี้คืออะไร มีหนังสือเรียนที่ดีที่ครอบคลุมพวกเขาทั้งหมดหรือไม่?

  • ได้รับข้อมูล
  • ข้อมูลร่วมกัน
  • ข้ามเอนโทรปี
  • เอนโทรปีแบบมีเงื่อนไข
  • เอนโทรปีต่างกัน
  • ได้รับข้อมูลญาติ

2
เพื่อเพิ่มความสับสนเพิ่มเติมโปรดทราบว่าสัญกรณ์ที่คุณใช้สำหรับการข้ามเอนโทรปีเป็นสัญกรณ์เดียวกันกับที่ใช้สำหรับเอนโทรปีร่วม ฉันใช้สำหรับการข้ามเอนโทรปีเพื่อหลีกเลี่ยงความสับสน แต่นั่นก็เพื่อผลประโยชน์ของฉันและฉันไม่เคยเห็นสัญลักษณ์นั้นมาก่อน Hx(P,Q)
Michael McGowan

คำตอบ:


24

ฉันคิดว่าการเรียก Kullback-Leibler divergence "การรับข้อมูล" นั้นไม่ใช่มาตรฐาน

คำจำกัดความแรกคือมาตรฐาน

แก้ไข: อย่างไรก็ตามสามารถเรียกได้ว่าข้อมูลร่วมกันH(Y)H(Y|X)

โปรดทราบว่าฉันไม่คิดว่าคุณจะพบวินัยทางวิทยาศาสตร์ใด ๆ ที่มีรูปแบบการตั้งชื่อที่ได้มาตรฐานแม่นยำและสอดคล้องกัน ดังนั้นคุณจะต้องดูสูตรอยู่เสมอเพราะโดยทั่วไปแล้วพวกเขาจะให้แนวคิดที่ดีกว่า

ตำราดู"แนะนำที่ดีเข้ามาในชนิดที่แตกต่างกันของเอนโทรปี"

นอกจากนี้: Cosma Shalizi: วิธีการและเทคนิคของวิทยาศาสตร์ระบบที่ซับซ้อน: ภาพรวม, บทที่ 1 (หน้า 33--114) ใน Thomas S. Deisboeck และ J. Yasha Kresh (บรรณาธิการ), วิทยาศาสตร์ระบบที่ซับซ้อนใน Biomedicine http: // arxiv.org/abs/nlin.AO/0307015

โรเบิร์ตเอ็มสีเทา: เอนโทรปีและทฤษฎีสารสนเทศ http://ee.stanford.edu/~gray/it.html

David MacKay: ทฤษฎีข้อมูล, การอนุมานและอัลกอริทึมการเรียนรู้ http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

นอกจากนี้"อะไรคือ" เอนโทรปีและการได้รับข้อมูล "?"


ขอบคุณ @wolf ฉันอยากจะยอมรับคำตอบนี้ หากคำจำกัดความแรกเป็นมาตรฐานคุณจะกำหนดข้อมูลร่วมกันอย่างไร
Amelio Vazquez-Reina

2
IG(Y|X)=H(Y)H(Y|X)

4

พี(X,Y)P(X)P(Y)

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

p(y)=xp(x,y)


1

Mutual information can be defined using Kullback-Liebler as

I(X;Y)=DKL(p(x,y)||p(x)p(y)).

1

Extracting mutual information from textual datasets as a feature to train machine learning model: ( the task was to predict age, gender and personality of bloggers)

enter image description here


1

Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.

Firstly: MIMutualInformation IGInformationGainIInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.

The second point is the relation between the Kullback–Leibler divergence-DKL, and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD, where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.

The third point to clarify is the inconsistent, though standard notation being used, namely that H(X,Y) is both the notation for Joint entropy and for Cross-entropy as well.

So, for example, in the definition of Information:

in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however: DKL(P||Q)=H(P,Q)H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).

Joint-entropy and Cross-entropy are NOT the same.

Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered - Hq(p)

I would hope to see this notation accepted and the wiki-pages updated.


wonder why the equations are not displayed properly..
Shaohua Li
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.