ทำไมเอนโทรปีของการไขว้กันจึงกลายเป็นฟังก์ชั่นการสูญเสียมาตรฐานและไม่ใช่ Kullbeck Leibler divergence?

15

Cross entropy นั้นเหมือนกับ KL divergence บวกกับเอนโทรปีของการกระจายเป้าหมาย KL เท่ากับศูนย์เมื่อทั้งสองการแจกแจงเหมือนกันซึ่งดูเหมือนง่ายสำหรับฉันมากกว่าเอนโทรปีของการกระจายเป้าหมายซึ่งเป็นสิ่งที่เอนโทรปีของการจับคู่ข้ามตรงกัน

ฉันไม่ได้บอกว่ามีข้อมูลเพิ่มเติมในอีกเรื่องหนึ่งยกเว้นว่ามุมมองของมนุษย์อาจพบว่าศูนย์ใช้งานง่ายกว่าเชิงบวก แน่นอนหนึ่งมักจะใช้วิธีการประเมินเพื่อดูว่าการจัดหมวดหมู่เกิดขึ้นได้ดีเพียงใด แต่ทางเลือกของเอนโทรปีในประวัติศาสตร์ KL คืออะไร?

machine-learning classification

— จอชอัลเบิร์ต
แหล่งที่มา

12

เมื่อมันมาถึงปัญหาการจัดหมวดหมู่ในการเรียนรู้เครื่องเอนโทรปีและข้าม KL แตกต่างมีค่าเท่ากัน ตามที่ระบุไว้ในคำถามสูตรทั่วไปคือ:

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p, q) = H(p) + D_{KL}(p||q)$

ที่ไหน $p$ กระจาย“ความจริง” และ $q$ เป็นกระจายประมาณ $H(p, q)$ เป็นข้ามเอนโทรปี, $H(p)$ เป็นเอนโทรปีและ $D$ คือความแตกต่าง Kullback-Leibler

$p$

พี = [0, . . ., 1, . . ., 0]

$p = [0,..., 1, ..., 0]$

ซึ่งเป็นพื้น แจกแจงแบบเดลต้าฟังก์ชัน แต่เอนโทรปีของฟังก์ชั่นเดลต้าเป็นศูนย์ดังนั้นการเบี่ยงเบนของ KL จึงเท่ากับการข้ามเอนโทรปี

$H(p)$ $0$

— คติพจน์
แหล่งที่มา

0

Cross-entropy เป็นเอนโทรปีไม่ใช่ความแตกต่างของเอนโทรปี

วิธีที่เป็นธรรมชาติมากขึ้นและอาจเป็นสัญชาตญาณในการกำหนดเกณฑ์การจัดหมวดหมู่คือผ่านความสัมพันธ์มากกว่าการกำหนด

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \log\frac{Q(i)}{P(i)}$

สิ่งนี้เป็นไปตามแนวที่ระบุโดย Claude Shannon กับ John von Neumann ระหว่างอุณหพลศาสตร์เชิงกลเชิงควอนตัมและทฤษฎีข้อมูล เอนโทรปีไม่ใช่ปริมาณที่แน่นอน มันเป็นแบบสัมพัทธ์ดังนั้นจึงไม่สามารถคำนวณเอนโทรปีหรือไขว้เอนโทรปีได้

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \int_{-\infty}^\infty \, p(x) \log\frac {q(x)} {p(x)} \, dx$

ถึงแม้ว่าเราอาจจะเห็น $H(...) = ...$ ในวรรณคดีโดยไม่มี H '(... ) ทางด้านขวาของสมการมันไม่ถูกต้องทางเทคนิค ในกรณีเช่นนี้มักมีความเอนโทรปีโดยนัยที่เอนโทรปีทางด้านซ้ายมือเป็นญาติ

— FauChristian
แหล่งที่มา