ทำไม KL แตกต่างกันจึงไม่เป็นลบ
จากมุมมองของทฤษฎีสารสนเทศฉันมีความเข้าใจที่เข้าใจง่าย:
บอกว่ามีสองตระการตาและBซึ่งจะประกอบด้วยชุดเดียวกันขององค์ประกอบที่โดดเด่นด้วยx p ( x )และq ( x )คือการแจกแจงความน่าจะเป็นที่แตกต่างกันมากกว่าชุดAและBตามลำดับ
จากมุมมองของทฤษฎีข้อมูลเป็นจำนวนเงินที่น้อยที่สุดของบิตที่จำเป็นต้องใช้สำหรับการบันทึกเป็นองค์ประกอบทั้งมวล ดังนั้นความคาดหวัง ∑ x ∈ e n s e m b l e - p ( x ) ln ( p ( x ) ) สามารถตีความได้ว่าอย่างน้อยจำนวนบิตที่เราต้องการสำหรับบันทึกองค์ประกอบในAโดยเฉลี่ย
เนื่องจากสูตรนี้ให้ขอบเขตที่ต่ำกว่าบนบิตที่เราต้องการโดยเฉลี่ยดังนั้นสำหรับกลุ่มที่แตกต่างกันซึ่งทำให้มีการกระจายความน่าจะเป็นที่ต่างกันq ( x )ขอบเขตที่ให้สำหรับแต่ละองค์ประกอบxจะไม่ใช่บิตที่แน่นอน มอบให้โดยp ( x )ซึ่งหมายถึงการคาดหวัง∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
ฉันไม่ใส่≥ที่นี่เนื่องจากp(x)และq(x)แตกต่างกัน
นี่คือความเข้าใจที่เข้าใจง่ายของฉันมีวิธีการทางคณิตศาสตร์อย่างแท้จริงในการพิสูจน์ความแตกต่างของ KL ที่ไม่ใช่เชิงลบหรือไม่? ปัญหาสามารถระบุได้เป็น:
สิ่งนี้จะพิสูจน์ได้อย่างไร? หรือสิ่งนี้สามารถพิสูจน์ได้โดยไม่มีเงื่อนไขพิเศษ?