คำจำกัดความและที่มาของ "การข้ามเอนโทรปี"


15

วิกิพีเดียจะกำหนดข้ามเอนโทรปีของการแจกแจงแบบแยกส่วนและให้เป็นPQ

H×(P;Q)=-Σxพี(x)เข้าสู่ระบบQ(x).

ใครเป็นคนแรกที่เริ่มใช้ปริมาณนี้ และใครเป็นคนคิดค้นคำนี้ ฉันดูใน:

JE Shore และ RW Johnson "หลักการที่ได้มาจากหลักการของเอนโทรปีสูงสุดและหลักการของการข้ามเอนโทรปีขั้นต่ำ" ทฤษฎีข้อมูลธุรกรรม IEEE บนฉบับที่ หมายเลข 26 1, pp. 26-37, ม.ค. 1980

ฉันทำตามคำแนะนำของพวกเขา

A. Wehrl, "คุณสมบัติทั่วไปของเอนโทรปี" ความคิดเห็นเกี่ยวกับฟิสิกส์ยุคใหม่ 50, ไม่ 2, pp. 221-260, เม.ย. 1978

ใครไม่เคยใช้คำ

ไม่เช่นนั้น

S. Kullback และ R. Leibler, "ข้อมูลและความพอเพียง" พงศาวดารของสถิติทางคณิตศาสตร์, ฉบับที่ 22, ไม่มี 1, pp. 79-86, 1951

ฉันมองเข้าไป

TM Cover และ JA Thomas องค์ประกอบของข้อมูลทฤษฎี (ซีรี่ส์ Wiley ในการสื่อสารโทรคมนาคมและการประมวลผลสัญญาณ) Wiley-Interscience, 2006

และ

I. ดี "เอนโทรปีสูงสุดสำหรับการกำหนดสมมติฐานโดยเฉพาะอย่างยิ่งสำหรับตารางฉุกเฉินหลายมิติ" พงศาวดารของสถิติคณิตศาสตร์ฉบับที่ 19 หมายเลข 34 3, pp. 911-934, 1963

แต่เอกสารทั้งสองกำหนด cross-entropy ให้ตรงกันกับ KL-divergence

กระดาษต้นฉบับ

CE Shannon, "ทฤษฎีคณิตศาสตร์แห่งการสื่อสาร," วารสารเทคนิคระบบกระดิ่ง, ฉบับที่ 27, 2491

ไม่ได้กล่าวถึงเอนโทรปีของการข้าม (และมีคำจำกัดความที่แปลกของ "เอนโทรปีสัมพัทธ์": "อัตราส่วนของเอนโทรปีของแหล่งข้อมูลต่อค่าสูงสุดที่อาจมีในขณะที่ยังคง จำกัด อยู่ที่สัญลักษณ์เดียวกัน")

ในที่สุดฉันดูหนังสือและเอกสารเก่า ๆ ของ Tribus

ไม่มีใครรู้ว่าสิ่งที่เรียกว่าสมการข้างต้นและผู้ที่คิดค้นมันหรือมีการนำเสนอที่ดีของมัน?

คำตอบ:


7

ผม1:2(E)2.2-2.4

แก้ไข:

นามแฝงเพิ่มเติม ได้แก่วัด Kullback-Leibler ข้อมูลตัวชี้วัดข้อมูลญาติข้ามเอนโทรปี I-แตกต่างและKerridge ไม่ถูกต้อง


ขอบคุณ! ฉันตรวจสอบการอ้างอิงเหล่านั้น แต่ฉันยังคงมีปัญหาในการค้นหาคำว่า "cross entropy" หรือสมการที่ตรงกัน โปรดแจ้งให้เราทราบหากคุณเห็นหนึ่งในบทความหรือหนังสือ
Neil G

1
นอกจากนี้คุณยังสามารถค้นหาบทความย้อนหลังใน Google Scholar สำหรับบทความที่มีชื่อแทนต่าง ๆ ที่เผยแพร่จนถึงปีหนึ่ง (เช่นcross-entropy ได้ถึงปี 1980 )
Itamar

1
เกี่ยวกับการแก้ไขล่าสุดของคุณฉันสนใจประวัติของแบบฟอร์มที่ระบุในคำถามของฉัน ฉันสังเกตเห็นแล้วว่าเอกสารฉบับแรกใช้ "cross entropy" เพื่อหมายถึง "KL divergence" (โปรดทราบว่ากระดาษ Kullback อยู่ในคำถามของฉัน)
Neil G

ขออภัยฉันพลาด Kullback paper ในคำถาม
Itamar

4

ขอบคุณคำแนะนำของ @ Itamar ฉันพบการพูดถึงใน:

IJ Good, "คำศัพท์และสัญกรณ์บางอย่างในทฤษฎีข้อมูล" การดำเนินการของ IEE - ส่วน C: Monographs, vol. หมายเลข 103 3, pp. 200-204, มี.ค. 1956

มันจะมีประโยชน์จริง ๆ สำหรับฉันในการค้นหาการนำเสนอที่ดีของการข้ามเอนโทรปี


2

ขอบคุณสำหรับสิ่งนี้ - บทสรุปที่ดีของวรรณคดีพื้นหลัง บทความ 1980 Shore and Johnson ใน IEEE เป็นการเริ่มต้นที่ดี แต่ตัวชี้ของ @ itamar ไปยังเอกสารที่ดีจากปี 1956 นั้นดีกว่า แนวคิดนี้ดูเหมือนจะมาจากผลงานของแชนนอนด้วยบันทึกของ Kullback & Leibler ในปี 1951 AMS ซึ่งเป็นที่มาของการใช้คำในปัจจุบัน เท่าที่เป็นต้นกำเนิดของคำว่า "cross entropy" นั้นเกี่ยวข้องกับโครงข่ายประสาทเทียมมีคำที่ใช้ในบทความทางวิทยาศาสตร์ที่ส่งมาปี 1994 ตีพิมพ์ 1995 โดย GE Hinton, P. Dayan, BJ Frey และ RM Neal ใน ซึ่งมีการใช้คำว่า "Hemholtz Machine" เป็นครั้งแรก - อาจเป็นคำแรก URL สำหรับการคัดลอก: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf ในกระดาษนั้น "อัลกอริธึม Wake-sleep สำหรับเครือข่ายนิวรัลที่ไม่มีผู้ดูแล" บันทึกก่อนที่สมการที่ 5 กล่าวว่า: "เมื่อมีทางเลือกมากมายในการอธิบายเวกเตอร์อินพุตมันเป็นไปได้ที่จะออกแบบรูปแบบการเข้ารหัสสุ่ม เอนโทรปีข้ามคำอธิบายทางเลือก [1] ตอนนี้ราคา: "(ดูกระดาษสำหรับ eqn # 5)" ในระยะที่สองคือเอนโทรปีของการแจกแจงที่การรับรู้น้ำหนักกำหนดให้เป็นตัวแทนทางเลือกต่าง ๆ " ต่อมาในกระดาษ eqn # 5 จะถูกเขียนใหม่เป็น eqn # 8 พร้อมกับคำสุดท้ายที่อธิบายว่าการเบี่ยงเบน Kullback-Leibler ระหว่างการแจกแจงความน่าจะเป็นเริ่มต้นและการแจกแจงความน่าจะเป็นหลัง กระดาษกล่าวว่า: "ดังนั้นสำหรับสองรูปแบบกำเนิดที่กำหนดความน่าจะเป็นเท่ากับ d, ) บทความนี้ยังอธิบายถึงกระบวนการย่อขนาดสำหรับอัลกอริทึมเฉพาะนี้ว่าเป็นการลดความแตกต่างของ Kullback-Leibler แต่ดูเหมือนว่ามันจะเป็นที่ที่คำว่า "เอนโทรปีข้ามคำอธิบายทางเลือก" ถูกย่อให้เหลือเพียง "cross entropy" สำหรับตัวอย่างตัวเลขของการข้ามเอนโทรปีโดยใช้ TensorFlow ดูการโพสต์ที่นี่มีประโยชน์: ) บทความนี้ยังอธิบายถึงกระบวนการย่อขนาดสำหรับอัลกอริทึมเฉพาะนี้ว่าเป็นการลดความแตกต่างของ Kullback-Leibler แต่ดูเหมือนว่ามันจะเป็นที่ที่คำว่า "เอนโทรปีข้ามคำอธิบายทางเลือก" ถูกย่อให้เหลือเพียง "cross entropy" สำหรับตัวอย่างตัวเลขของการข้ามเอนโทรปีโดยใช้ TensorFlow ดูการโพสต์ที่นี่มีประโยชน์: /programming/41990250/what-is-cross-entropy โปรดทราบว่าการแก้ปัญหาของ CE = 0.47965 นั้นมาจากการบันทึกความเป็นไปได้ของ. 619 ในตัวอย่างข้างต้นการใช้ "หนึ่งร้อน" การเข้ารหัสหมายความว่าอีกสองความน่าจะเป็นเริ่มต้นและหลังจะถูกละเว้นเนื่องจากการคูณด้วยความน่าจะเป็นเริ่มต้นเป็นศูนย์มูลค่าในการรวมสำหรับเอนโทรปีข้าม


+1 สิ่งนี้อาจจะถูกต้อง คุณกำลังบอกว่าปี 1994 เป็นที่มาของคำนิยามที่ทันสมัยของการข้ามเอนโทรปี
Neil G
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.