มีคำถามเกี่ยวกับ KL divergence หรือไม่


14

ฉันกำลังเปรียบเทียบการแจกแจงสองแบบกับการกระจายของ KL ซึ่งให้ผลตอบแทนเป็นตัวเลขที่ไม่ได้มาตรฐานซึ่งตามที่ฉันอ่านเกี่ยวกับการวัดนี้คือปริมาณข้อมูลที่ต้องใช้เพื่อเปลี่ยนสมมติฐานหนึ่งไปเป็นอีกสมมติฐานหนึ่ง ฉันมีสองคำถาม:

a) มีวิธีในการหาจำนวนความแตกต่างของ KL เพื่อให้การตีความมีความหมายมากกว่าเช่นขนาดของเอฟเฟกต์หรือ R ^ 2 หรือไม่? รูปแบบของมาตรฐานใด ๆ

b) ใน R เมื่อใช้ KLdiv (แพ็คเกจ flexmix) เราสามารถตั้งค่า 'esp' (มาตรฐาน esp = 1e-4) ที่ตั้งค่าคะแนนทั้งหมดที่เล็กกว่า esp ถึงมาตรฐานบางอย่างเพื่อให้เสถียรภาพเชิงตัวเลข ฉันได้เล่นกับค่า esp ที่แตกต่างกันและสำหรับชุดข้อมูลของฉันฉันได้รับความแตกต่าง KL ที่ใหญ่ขึ้นเรื่อย ๆ ในจำนวนที่ฉันเลือกน้อยลง เกิดอะไรขึ้น? ฉันคาดหวังว่ายิ่ง esp ยิ่งน้อยผลลัพธ์ก็น่าเชื่อถือมากขึ้นเพราะพวกเขาปล่อยให้ 'คุณค่าที่แท้จริง' มากขึ้นกลายเป็นส่วนหนึ่งของสถิติ ไม่มี? ฉันต้องเปลี่ยน esp เพราะไม่เช่นนั้นจะไม่คำนวณสถิติ แต่แสดงเป็น NA ในตารางผลลัพธ์ ...

คำตอบ:


10

สมมติว่าคุณได้รับตัวอย่าง n IID ที่สร้างโดย p หรือ q คุณต้องการระบุการกระจายที่สร้างพวกเขา รับสมมุติฐานว่างที่พวกมันถูกสร้างขึ้นโดย q ให้ความน่าจะเป็นที่บ่งบอกถึงความผิดพลาดของ Type I โดยไม่ได้ตั้งใจปฏิเสธสมมติฐานว่างและ b บ่งบอกถึงความน่าจะเป็นของข้อผิดพลาด Type II

ดังนั้นสำหรับ n ขนาดใหญ่ความน่าจะเป็นของข้อผิดพลาด Type I เป็นอย่างน้อย

exp(nKL(p,q))

กล่าวอีกนัยหนึ่งสำหรับขั้นตอนการตัดสินใจ "ดีที่สุด" ความน่าจะเป็นของ Type I จะลดลงมากที่สุดโดยปัจจัยของ exp (KL (p, q)) ในแต่ละ datapoint ข้อผิดพลาด Type II ตกอยู่ที่ปัจจัยของมากที่สุดexp(KL(q,p))

สำหรับ arbitrary n, a และ b สัมพันธ์กันดังนี้

blogb1a+(1b)log1banKL(p,q)

และ

aloga1b+(1a)log1abnKL(q,p)

หากเราแสดงขอบด้านบนเป็นขอบล่างบน a ในรูปของ b และ KL และลด b เป็น 0 ผลลัพธ์ดูเหมือนจะเข้าใกล้ "exp (-n KL (q, p))" ถึงแม้สำหรับ n ขนาดเล็ก

รายละเอียดเพิ่มเติมในหน้า 10 ที่นี่และหน้า 74-77 ของ "ทฤษฎีข้อมูลและสถิติ" ของ Kullback (1978)

ในฐานะที่เป็นหมายเหตุด้านข้างการตีความนี้สามารถใช้เพื่อกระตุ้นการวัดข้อมูลฟิชเชอร์เนื่องจากการแจกแจงแบบคู่ใด ๆ p, q ที่ระยะทางของฟิชเชอร์ k จากกันและกัน (เล็ก ๆ ) คุณต้องการจำนวนการสังเกตเท่ากัน


1
+1 ฉันชอบการตีความนี้! คุณช่วยอธิบาย "p ด้านล่าง e" ได้ไหม? ทำไมคุณถึงเอาอีตัวเล็ก ๆ คุณพูดว่า "ความน่าจะเป็นในการทำผิดพลาดตรงกันข้ามหรือไม่" เป็นความน่าจะเป็นที่ถูกผูกไว้บนหรือที่แน่นอน? หากฉันจำได้ว่าวิธีการนี้มีสาเหตุมาจาก Chernoff คุณมีการอ้างอิง (ฉันพบว่าการอ้างอิงแรกของคุณไม่ได้อธิบายประเด็น :))?
robin girard

1
ทำไมฉันถึงนำตัวเล็ก ๆ อืม ... นั่นคือสิ่งที่กระดาษของ Balasubramanian ทำ แต่ตอนนี้กลับไปที่ Kullback ดูเหมือนว่าเขาจะถูก จำกัด ไว้สำหรับ e ใด ๆ และเขาก็ให้ขอบเขตกับ n แน่นอนขอให้ฉันอัปเดตคำตอบ
Yaroslav Bulatov

ตกลงเราไม่ต้องการ e ขนาดเล็ก (ตอนนี้เรียกว่า b, ข้อผิดพลาด Type II) จะเล็กสำหรับการผูกไว้ แต่ b = 0 คือค่าที่ถูกผูกไว้แบบง่าย (exp (-n KL (p, q)) ตรงกับขอบเขตที่ซับซ้อนมากขึ้นข้างต้นพออยากรู้อยากเห็นขอบเขตที่ต่ำกว่าสำหรับข้อผิดพลาด Type I ได้รับข้อผิดพลาด 0 Type II คือ <1 ฉันสงสัยว่า <1 Type II อัตราความผิดพลาดสามารถทำได้จริงหรือไม่
Yaroslav Bulatov

1
ที่จริงแล้วการทำความเข้าใจที่อ้างอิงได้ง่ายกว่าสำหรับเรื่องนี้ก็คือ "องค์ประกอบของข้อมูลทฤษฎี" ของหน้าปกหน้า 309, 12.8 "สไตน์เลมม่า"
Yaroslav Bulatov

8

KL มีความหมายลึกเมื่อคุณมองเห็นชุดของฟันเป็นท่อร่วมในเมตริกซ์ฟิชเชอร์มันจะให้ระยะทางมาตราส่วนระหว่างการกระจาย "ปิด" สองครั้ง อย่างเป็นทางการ:

ds2=2KL(p(x,θ),p(x,θ+dθ))

บรรทัดต่อไปนี้อยู่ที่นี่เพื่ออธิบายรายละเอียดความหมายของสูตรทางคณิตศาสตร์ las

ความหมายของตัวชี้วัดฟิชเชอร์

พิจารณาครอบครัว parametrized ของการกระจายความน่าจะเป็น (กำหนดโดยความหนาแน่นใน ) ที่เป็นตัวแปรสุ่มและ theta เป็นพารามิเตอร์ใน P คุณอาจทราบว่าเมทริกซ์ข้อมูลการฟิชเชอร์คือR n x R p F = ( F ฉันj )D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

ด้วยสัญกรณ์นี้คือ riemannian manifold และเป็นเมตริกซ์ Riemannian (ความสนใจของตัวชี้วัดนี้ได้รับจากทฤษฎีบทขอบเขตล่าง Rao Cramer)F ( θ )DF(θ)

คุณอาจพูดว่า ... ตกลงทางคณิตศาสตร์ที่เป็นนามธรรม แต่ KL อยู่ที่ไหน

มันไม่ได้เป็นนามธรรมทางคณิตศาสตร์ถ้าคุณสามารถจินตนาการความหนาแน่น parametrized ของคุณเป็นเส้นโค้ง (แทนที่จะเป็นส่วนย่อยของพื้นที่ของมิติที่ไม่มีที่สิ้นสุด) และเชื่อมต่อกับความโค้งของเส้นโค้งนั้น ... (ดู กระดาษน้ำเชื้อของ Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )F 11p=1F11

คำตอบทางเรขาคณิตเพื่อเป็นส่วนหนึ่งของจุด / ในคำถามของคุณ:ระยะทางกำลังสองระหว่างการแจกแจงสองแบบ (ปิด)และบนนานา (คิดว่า ระยะทางธรณีวิทยาบนโลกของสองจุดที่อยู่ใกล้มันเกี่ยวข้องกับความโค้งของโลก) ได้รับจากสมการกำลังสอง: p ( x , θ ) p ( x , θ + d θ )ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

และเป็นที่รู้กันว่าเป็นสองเท่าของ Kullback Leibler Divergence:

ds2=2KL(p(x,θ),p(x,θ+dθ))

หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ฉันขอแนะนำให้อ่านกระดาษจาก Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (ฉันคิดว่ายังมีหนังสือจาก Amari เกี่ยวกับ เรขาคณิต riemannian ในสถิติ แต่ฉันจำชื่อไม่ได้)


กรุณาเพิ่ม $ รอบ LaTeX ของคุณ ตอนนี้มันควรจะเป็น ok ดูmeta.math.stackexchange.com/questions/2/…
Rob Hyndman

1
เนื่องจากฉันไม่ได้เป็นนักคณิตศาสตร์หรือนักสถิติฉันจึงต้องการพูดซ้ำในสิ่งที่คุณพูดเพื่อให้แน่ใจว่าฉันไม่เข้าใจผิด ดังนั้นคุณกำลังบอกว่าการใช้ ds ^ 2 (สองครั้ง KL) จะมีความหมายคล้ายกันกับ R ^ 2 (ในรูปแบบการถดถอย) สำหรับการแจกแจงทั่วไป และนี่สามารถใช้เพื่อหาระยะทางเชิงเรขาคณิตได้หรือไม่? ds ^ 2 มีชื่อหรือไม่ดังนั้นฉันจึงสามารถอ่านเพิ่มเติมเกี่ยวกับสิ่งนี้ได้ มีกระดาษที่อธิบายตัวชี้วัดนี้โดยตรงและแสดงแอปพลิเคชันและตัวอย่างหรือไม่
Ampleforth

ฉันคิดว่าคุณไม่เข้าใจประเด็นและฉันไม่แน่ใจว่าคุณควรลองทำอะไรต่อไป หากคุณมีแรงจูงใจที่คุณสามารถอ่านกระดาษจากแบรดลีย์ Efron ฉัน mentionned หรือกระดาษที่อมารีprojecteuclid.org/...
robin girard

1
สิ่งนี้ดูเหมือนจะเป็นลักษณะของอนุพันธ์เชิงทิศทางของ KL มากกว่าของ KL เองและมันเป็นไปไม่ได้ที่จะแยก KL ออกเพราะมันไม่เหมือนกับอนุพันธ์อนุพันธ์ KL-divergence ไม่ได้ขึ้นอยู่กับเรขาคณิตของนานา
Yaroslav Bulatov

7

KL (p, q) ความแตกต่างระหว่างการแจกแจง p (.) และ q (.) มีการตีความทางทฤษฎีข้อมูลที่ใช้งานง่ายซึ่งคุณอาจพบว่ามีประโยชน์

สมมติว่าเราสังเกตข้อมูล x ที่เกิดจากการแจกแจงความน่าจะเป็นบางอย่าง p (.) ขอบเขตล่างของ codelength เฉลี่ยเป็นบิตที่จำเป็นในการระบุข้อมูลที่สร้างโดย p (.) จะได้รับจากเอนโทรปีของ p (.)

ทีนี้เนื่องจากเราไม่รู้ p (.) เราเลือกการกระจายอื่นพูด q (.) เพื่อเข้ารหัส (หรืออธิบาย, ระบุ) ข้อมูล ความยาวเฉลี่ยของข้อมูลที่สร้างโดย p (.) และเข้ารหัสโดยใช้ q (.) จะต้องนานกว่าถ้าใช้การแจกแจงจริง p (.) สำหรับการเข้ารหัส KL divergence บอกเราเกี่ยวกับความไร้ประสิทธิภาพของรหัสทางเลือกนี้ กล่าวอีกนัยหนึ่ง KL divergence ระหว่าง p (.) และ q (.) คือจำนวนบิตพิเศษโดยเฉลี่ยที่ต้องใช้ในการเข้ารหัสข้อมูลที่สร้างโดย p (.) โดยใช้การกระจายการเข้ารหัส q (.) KL แตกต่างไม่ใช่ค่าลบและเท่ากับศูนย์ iff การกระจายการสร้างข้อมูลจริงจะใช้ในการเข้ารหัสข้อมูล


2

สำหรับส่วน (b) ของคำถามของคุณคุณอาจพบปัญหาว่าหนึ่งในการแจกแจงของคุณมีความหนาแน่นในภูมิภาคที่อีกอันหนึ่งไม่มี

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.