ความงุนงงและความเอนโทรปีของแบบจำลอง n-gram

10

พยายามเข้าใจความสัมพันธ์ระหว่างการเอนโทรปีและความงุนงง โดยทั่วไปสำหรับรูปแบบM , ฉงนสนเท่ห์ (M) = 2 ^ เอนโทรปี (M) ความสัมพันธ์นี้มีไว้สำหรับ n-grams ที่แตกต่างกันทั้งหมดเช่น unigram, bigram ฯลฯ หรือไม่

natural-language entropy perplexity

— Margalit
แหล่งที่มา

ที่จริงแล้วคำจำกัดความของความงุนงง; สิ่งที่ได้รับมาจากมัน;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

— WavesWashSands

9

ใช่ความฉงนสนเท่ห์เท่ากับสองเท่ากับพลังของเอนโทรปี ไม่สำคัญว่าคุณมีโมเดลประเภทใดเครือข่าย n-gram, unigram หรือ neural

มีเหตุผลสองสามข้อที่คนแบบจำลองภาษาชอบความงุนงงแทนที่จะใช้เอนโทรปี สิ่งหนึ่งคือเพราะการยกกำลังการปรับปรุงความงุนงง "รู้สึก" ราวกับว่าพวกมันมีความสำคัญมากกว่าการพัฒนาเอนโทรปี อีกอย่างคือก่อนที่พวกเขาจะเริ่มใช้ความงุนงงความซับซ้อนของแบบจำลองภาษานั้นถูกรายงานโดยใช้การวัดปัจจัยการแยกย่อยแบบง่ายๆที่คล้ายกับความงุนงงมากกว่าการเอนโทรปี

— แอรอน
แหล่งที่มา

1

เห็นด้วยกับคำตอบ @Aaron ด้วยการแก้ไขเล็กน้อย:

มันไม่เท่ากับสองเสมอไปกับพลังของเอนโทรปี ที่จริงแล้วมันจะเป็น (ฐานสำหรับบันทึก) ไปสู่พลังของเอนโทรปี ถ้าคุณใช้ e เป็นฐานของคุณมันจะเป็น e ^ entropy

— Prashant Gupta
แหล่งที่มา