ทฤษฎีองค์ประกอบข้อมูลตำราเรียนให้เราเป็นตัวอย่าง:
ตัวอย่างเช่นถ้าเรารู้ว่าการแจกแจงที่แท้จริงของตัวแปรสุ่มเราสามารถสร้างโค้ดที่มีความยาวคำอธิบายเฉลี่ย H (p) หากเราใช้รหัสสำหรับการแจกแจงแทนเราจะต้องใช้บิต H (p) + D (p || q) โดยเฉลี่ยเพื่ออธิบายตัวแปรแบบสุ่ม
ในการถอดความข้อความข้างต้นเราสามารถพูดได้ว่าถ้าเราเปลี่ยนการกระจายข้อมูล (จาก q เป็น p) เราจำเป็นต้อง D (p | | q) บิตพิเศษโดยเฉลี่ยเพื่อรหัสการกระจายใหม่
ภาพประกอบ
ให้ฉันอธิบายสิ่งนี้โดยใช้แอปพลิเคชั่นหนึ่งตัวในการประมวลผลภาษาธรรมชาติ
พิจารณาว่ากลุ่มใหญ่ของคนที่มีป้ายกำกับ B เป็นผู้ไกล่เกลี่ยและแต่ละคนจะได้รับมอบหมายงานที่จะเลือกที่เป็นรูปธรรมจากturkey
, animal
และbook
และส่งไปยังซีมีชื่อคนที่อาจส่งแต่ละของพวกเขาอีเมลที่จะให้เป็น พวกเขามีคำแนะนำ หากไม่มีใครในกลุ่มได้รับอีเมลพวกเขาอาจยกคิ้วขึ้นและลังเลสักครู่เมื่อพิจารณาว่า C ต้องการอะไร และความน่าจะเป็นของแต่ละตัวเลือกที่เลือกคือ 1/3 การกระจายแบบสม่ำเสมอ toally (ถ้าไม่มันอาจเกี่ยวข้องกับการตั้งค่าของตัวเองและเราก็ไม่สนใจกรณีดังกล่าว)
แต่ถ้าพวกเขาจะได้รับคำกริยาเช่นbaste
3/4 ของพวกเขาอาจจะเลือกturkey
และเลือก 3/16 animal
และ 1/16 book
เลือก แล้วข้อมูลเฉลี่ยเท่าไหร่ในบิตของผู้ไกล่เกลี่ยแต่ละคนโดยเฉลี่ยได้รับเมื่อพวกเขารู้คำกริยา มันคือ:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
แต่ถ้าคำกริยาที่ให้ไว้คือread
อะไร? เราอาจจินตนาการว่าพวกเขาทุกคนจะเลือกbook
โดยไม่ลังเลเลยจากนั้นข้อมูลเฉลี่ยที่ได้รับสำหรับผู้ไกล่เกลี่ยแต่ละคำกริยาread
คือ:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
เราเห็นได้ว่าคำกริยาread
สามารถให้ข้อมูลแก่ผู้ไกล่เกลี่ยได้มากขึ้น และนั่นคือสิ่งที่เอนโทรปีสัมพัทธ์สามารถวัดได้
มาเล่าเรื่องของเรากันต่อ ถ้าซีสงสัยว่าคำนามอาจผิดเพราะเอบอกเขาว่าเขาอาจทำผิดโดยส่งคำกริยาผิดไปยังผู้ไกล่เกลี่ย ถ้าเช่นนั้นข่าวร้ายชิ้นใดที่สามารถให้ข้อมูล C ได้ในหน่วยบิต
1) ถ้าคำกริยาที่ให้โดย A คือbaste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) แต่ถ้าคำกริยาเป็นread
อย่างไร
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
เนื่องจาก C ไม่เคยรู้ว่าคำนามอีกสองคำจะเป็นอะไรและคำใด ๆ ในคำศัพท์จะเป็นไปได้
เราจะเห็นได้ว่าการเบี่ยงเบนของ KL นั้นไม่สมมาตร
ฉันหวังว่าฉันพูดถูกและถ้าไม่ได้โปรดแสดงความคิดเห็นและช่วยแก้ไขฉัน ขอบคุณล่วงหน้า.