Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล


23

หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น

เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร

-Σαพีαเข้าสู่ระบบ2(พีα)

ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพี

Σαพีα(เข้าสู่ระบบ2Qα-เข้าสู่ระบบ2พีα)
Qพี

อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ

ไม่ว่าจะเป็นหรือไม่ก็ตามคำถามที่ฉันมีอยู่ในใจก็คือปัญหาของการอนุมาน (การรักษาสิ่งต่าง ๆ โดยสิ้นเชิง) ถ้าเรามีตัวอย่างกัมมันตภาพรังสีสองตัวอย่างและเรารู้ว่าหนึ่งในนั้นเป็นวัสดุบางอย่างที่มีกัมมันตภาพรังสีที่รู้จัก (นี่คือฟิสิกส์ที่น่าสงสัย แต่เราแสร้งทำเป็นเอกภพทำงานเช่นนั้น) ของการคลิกกัมมันตภาพรังสีที่เราควรวัดควรเป็นปัวซองเซียนที่รู้จักมันยุติธรรมที่จะสร้างการกระจายเชิงประจักษ์สำหรับตัวอย่างทั้งสองและเปรียบเทียบความแตกต่าง KL ของพวกเขากับการกระจายที่รู้จักและบอกว่าλ

ถ้าฉันรู้ว่าตัวอย่างสองตัวอย่างถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน แต่ฉันรู้ว่าพวกมันไม่ได้ถูกเลือกแบบสุ่มจะเปรียบเทียบความแตกต่าง KL ของพวกเขากับการกระจายที่เป็นที่รู้จักการกระจายทั่วโลกทำให้ฉันรู้สึกว่า เกี่ยวข้องกับอย่างใดอย่างหนึ่งหรือไม่?

และในที่สุดถ้าคำตอบของคำถามก่อนหน้านี้คือใช่แล้วทำไม? เป็นไปได้ไหมที่จะเข้าใจสิ่งเหล่านี้จากมุมมองทางสถิติโดยลำพังโดยไม่ต้องเชื่อมโยงกับทฤษฎีสารสนเทศ


1
ดูคำตอบของฉันที่นี่: stats.stackexchange.com/questions/188903/ … ซึ่งไม่ได้อ้างถึงทฤษฎีข้อมูล
kjetil b halvorsen

1
ความแตกต่างของ KL ไม่ใช่แนวคิดเชิงทฤษฎีข้อมูลหรือไม่? ฉันรู้ว่ามันให้ข้อมูลร่วมกันระหว่าง Bayesian ก่อนและหลังหรืออะไรทำนองนั้นและฉันจำได้ว่าเคยเห็นมันในบริบทของ Fenchel แปลง / คอนจูเกต (ทฤษฎีการเบี่ยงเบนขนาดใหญ่) แต่ในกรณีใด ๆ ฉันคิดว่ามันเป็นแนวคิดเชิงทฤษฎีข้อมูล .
Chill2Macht

คำตอบ:


23

มีวิธีการทางสถิติล้วนๆเพื่อ Kullback-Leibler divergence: นำตัวอย่าง iid จากการแจกแจงที่ไม่รู้จักและพิจารณาความเหมาะสมที่อาจเกิดขึ้นโดยครอบครัวของการแจกแจงโอกาสที่สอดคล้องกันถูกกำหนดเป็น และ ลอการิทึมคือ ดังนั้น ซึ่ง เป็นส่วนที่น่าสนใจของ Kullback-Leibler divergence ระหว่างกับp F = { p θX1,,XnpL ( θ | x 1 , ... , x n ) = n Πฉัน= 1 P θ ( x ฉัน ) ( θ | x 1 , ... , x n ) = n Σฉัน= 1บันทึกหน้าθ ( x i ) 1

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
p θ p H ( p θ | p ) def =บันทึก{ p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp บันทึก{ p ( x ) }
H(พีθ|พี)=defเข้าสู่ระบบ{พี(x)/พีθ(x)}พี(x)dx
ส่วนอื่นอยู่ที่นั่นเพื่อให้มีขั้นต่ำ [ใน ] ของเท่ากับศูนย์θ H ( p θ | p )
เข้าสู่ระบบ{พี(x)}พี(x)dx
θH(พีθ|พี)

หนังสือที่เชื่อมต่อความแตกต่างทฤษฎีข้อมูลและการอนุมานทางสถิติเป็น Rissanen ของ การประมาณค่าที่เหมาะสมของพารามิเตอร์ซึ่งเราได้ตรวจสอบที่นี่


ความเป็นไปได้ใด ๆ ที่เห็นตัวอย่างตัวเลขนี้?
Paul Uszak

ฉันหมายถึงการได้เห็นตัวเลขจริง ทฤษฎีน่ารัก แต่โลกนี้มีตัวเลข ไม่มีตัวอย่างของความแตกต่างของ KL ที่ใช้ตัวเลขจริงดังนั้นฉันจึงสรุปว่ามันเป็นทฤษฎีที่ไม่มีการใช้งานที่เป็นไปได้ OP กล่าวถึงความยาวของข้อความเป็นบิตและการบีบอัดข้อมูล ฉันหมายถึงตัวอย่างใด ๆ ที่มีจำนวนของบิตในมัน ...
พอล Uszak

2
@ PaulUszak: ถ้าฉันบอกคุณว่า Kullaback-Leibler ระยะทางระหว่าง N (0,1) และการกระจาย N (1,1) คือ 1/2 สิ่งนี้ช่วยได้อย่างไร
ซีอาน

2
@ ซีอาน: จะต้องมีการเชื่อมต่อระหว่างจำนวนที่ 1/2 และพลังของการทดสอบอัตราส่วนความน่าจะเป็นที่สอดคล้องกัน?
kjetil b halvorsen

7
+1 อีกเธรดความคิดเห็น: จิตใจกระวนกระวายใจว่าแนวคิดใด ๆ ที่ไม่สามารถลดเป็น "จำนวนบิต" นั้นไร้ประโยชน์
whuber

8

นี่คือการตีความทางสถิติของการเบี่ยงเบน Kullback-Leibler ซึ่งนำมาจาก IJ ดีอย่างหลวม ๆ ( น้ำหนักของหลักฐาน: การสำรวจสั้น ๆ , Bayesian Statistics 2, 1985)

น้ำหนักของหลักฐาน

x1,x2,...,xn0H1H20H1={1}H2={2}012

x=(x1,...,xn)H 2 W ( x ) = บันทึกf 1 ( x )H1H2

W(x)=เข้าสู่ระบบ1(x)2(x).
PH0H1W W(x1,...,xn)=W(x1)++W(xn) W(x)x
เข้าสู่ระบบP(H0|x)P(H1|x)=W(x)+เข้าสู่ระบบP(H0)P(H1).
W(x1,...,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

ความแตกต่างของ Kullback-Leibler

12x~1

KL(1,2)=Ex~1W(x)=1เข้าสู่ระบบ12.

x~1H1={1}H2

Ex~1W(x)0

1

ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร

ฉันไม่รู้อะไรมากเกี่ยวกับทฤษฎีข้อมูล แต่นี่คือสิ่งที่ฉันคิดเกี่ยวกับมัน: เมื่อฉันได้ยินคนทฤษฎีข้อมูลพูดว่า "ความยาวของข้อความ" สมองของฉันบอกว่า "ประหลาดใจ" ความประหลาดใจคือ 1) สุ่มและ 2) อัตนัย

XQ(X)-เข้าสู่ระบบQ(X)

QXพีพีEพี[-เข้าสู่ระบบพี(X)]QพีEพี[-เข้าสู่ระบบQ(X)]

แทนที่จะคิดเกี่ยวกับ "พวกเขาต่างกันอย่างไร" ฉันคิดถึง "การเพิ่มขึ้นของความประหลาดใจที่คาดหวังจากการใช้การแจกแจงผิด นี่คือทั้งหมดที่มาจากคุณสมบัติของลอการิทึม

Eพี[เข้าสู่ระบบ(พี(X)Q(X))]=Eพี[-เข้าสู่ระบบQ(X)]-Eพี[-เข้าสู่ระบบพี(X)]0

แก้ไข

-เข้าสู่ระบบ(Q(x))Q

XQx0-เข้าสู่ระบบ(0)=10

-เข้าสู่ระบบ

Q(x)>1

X~QX(x)Y=aX+~Qx((Y-)/a)|1/a|X-เข้าสู่ระบบQX(X)-เข้าสู่ระบบQY(Y)

(X-EX)2

แก้ไข 2: ดูเหมือนว่าฉันไม่ใช่คนเดียวที่คิดเรื่องนี้ว่า "ประหลาดใจ" จากที่นี่ :

Yθ-2เข้าสู่ระบบ{พี(Y|θ)}


1
-เข้าสู่ระบบ(Q(x))Q

1
TT(X)=aXa0TT(x)xT(x)x-เข้าสู่ระบบQT(X)(T(x))>-เข้าสู่ระบบQX(x)

(X-E[X])2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.