หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น
เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร
ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพี
อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ
ไม่ว่าจะเป็นหรือไม่ก็ตามคำถามที่ฉันมีอยู่ในใจก็คือปัญหาของการอนุมาน (การรักษาสิ่งต่าง ๆ โดยสิ้นเชิง) ถ้าเรามีตัวอย่างกัมมันตภาพรังสีสองตัวอย่างและเรารู้ว่าหนึ่งในนั้นเป็นวัสดุบางอย่างที่มีกัมมันตภาพรังสีที่รู้จัก (นี่คือฟิสิกส์ที่น่าสงสัย แต่เราแสร้งทำเป็นเอกภพทำงานเช่นนั้น) ของการคลิกกัมมันตภาพรังสีที่เราควรวัดควรเป็นปัวซองเซียนที่รู้จักมันยุติธรรมที่จะสร้างการกระจายเชิงประจักษ์สำหรับตัวอย่างทั้งสองและเปรียบเทียบความแตกต่าง KL ของพวกเขากับการกระจายที่รู้จักและบอกว่า
ถ้าฉันรู้ว่าตัวอย่างสองตัวอย่างถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน แต่ฉันรู้ว่าพวกมันไม่ได้ถูกเลือกแบบสุ่มจะเปรียบเทียบความแตกต่าง KL ของพวกเขากับการกระจายที่เป็นที่รู้จักการกระจายทั่วโลกทำให้ฉันรู้สึกว่า เกี่ยวข้องกับอย่างใดอย่างหนึ่งหรือไม่?
และในที่สุดถ้าคำตอบของคำถามก่อนหน้านี้คือใช่แล้วทำไม? เป็นไปได้ไหมที่จะเข้าใจสิ่งเหล่านี้จากมุมมองทางสถิติโดยลำพังโดยไม่ต้องเชื่อมโยงกับทฤษฎีสารสนเทศ