3
Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล
หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร- ∑αพีαเข้าสู่ระบบ2( หน้าα)-Σαพีαเข้าสู่ระบบ2(พีα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพีΣαพีα( บันทึก2Qα- บันทึก2พีα)Σαพีα(เข้าสู่ระบบ2Qα-เข้าสู่ระบบ2พีα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})QQqพีพีp อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ …