การตีความอนุพันธ์ Radon-Nikodym ระหว่างความน่าจะเป็นเป็นอย่างไร


11

ฉันเคยเห็นบางจุดการใช้เรดอน - นิโคดีมาของการวัดความน่าจะเป็นหนึ่งโดยเทียบกับอีกประการหนึ่งที่โดดเด่นที่สุดใน Kullback-Leibler divergence ซึ่งเป็นอนุพันธ์ของการวัดความน่าจะเป็นของแบบจำลองสำหรับพารามิเตอร์โดยพลการเกี่ยวกับพารามิเตอร์จริง :θ 0θθ0

dPθdPθ0

ที่ไหนเหล่านี้มีทั้งที่เป็นมาตรการในพื้นที่ของ datapoints เงื่อนไขเกี่ยวกับค่าพารามิเตอร์:theta)Pθ(D)=P(D|θ)

การตีความของอนุพันธ์ Radon-Nikodym เช่นนี้ในการเบี่ยงเบน Kullback-Leibler คืออะไรหรือโดยทั่วไประหว่างความน่าจะเป็นสองมาตรการ?

คำตอบ:


12

อันดับแรกเราไม่ต้องการมาตรการความน่าจะเป็นเพียงแค่ -finiteness ดังนั้นขอให้จะเป็นพื้นที่ที่สามารถวัดได้และปล่อยให้และเป็น -finite มาตรการMσM=(Ω,F)μνσM

เรดอน Nikodym ทฤษฎีบทระบุว่าหากสำหรับทุก , แสดงโดยแล้วมีอยู่ไม่ใช่เชิงลบ Borel ฟังก์ชันเช่นนั้น สำหรับทั้งหมดμ(A)=0ν(A)=0AFμνf

ν(A)=Afdμ
AF

นี่คือวิธีที่ฉันชอบคิดนี้ ครั้งแรกสำหรับสองมาตรการให้มีกำหนดหมายถึง0 นี่คือความสัมพันธ์ที่เท่าเทียมกันที่ถูกต้องและเราบอกว่าและมีความเท่าเทียมกันในกรณีนี้ ทำไมสิ่งนี้จึงมีความสมดุลที่สมเหตุสมผลสำหรับการวัด มาตรการเป็นเพียงฟังก์ชั่น แต่โดเมนของพวกเขานั้นยากที่จะมองเห็น สิ่งที่เกี่ยวกับถ้าสองฟังก์ชั่นสามัญมีคุณสมบัตินี้คือ ? ดีให้นิยาม และทราบว่า ทุกที่ในการสนับสนุนของMμνμ(A)=0ν(A)=0μνf,g:RRf(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
gเรามีและด้านนอกของการสนับสนุนของ (ตั้งแต่และส่วนแบ่งการสนับสนุน) เพื่อให้ช่วยให้เรา rescaleลงในฉในขณะที่ @whuber ชี้ให้เห็นความคิดหลักที่นี่ไม่ใช่ว่านั้น "ปลอดภัย" ที่จะทำหรือเพิกเฉย แต่เมื่อแล้วมันไม่สำคัญว่าทำอะไรเราจึงสามารถกำหนดได้เอง (เช่น เป็นซึ่งไม่มีความหมายพิเศษที่นี่) และสิ่งต่างๆยังคงใช้ได้ นอกจากนี้ในกรณีนี้เราสามารถกำหนดฟังก์ชั่นแบบอะนาล็อกด้วยดังนั้นgh=fg gh=0πe=0=ffghgf0/0g=0hπehg/ffh=gกรัม

ถัดไปสมมติว่าแต่ทิศทางอื่นไม่จำเป็นต้องถือ ซึ่งหมายความว่าคำนิยามเดิมของเราที่ยังคงทำงาน แต่ตอนนี้ไม่ทำงานเพราะมันจะมีหน่วยงานที่เกิดขึ้นจริงโดย0ดังนั้นเราสามารถ rescaleเป็นผ่านแต่เราไม่สามารถไปในทิศทางอื่นเพราะเราต้องการ rescale บางสิ่งเป็นสิ่งที่ไม่ใช่ศูนย์g(x)=0f(x)=0hh0gfgh=f0

ตอนนี้ขอกลับไปและและแสดงว่า RND ของเราโดยฉถ้านี่หมายความว่าสัญชาตญาณคนหนึ่งสามารถ rescaled เข้าไปอีกและในทางกลับกัน แต่โดยทั่วไปแล้วเราต้องการเพียงแค่ไปในทิศทางเดียวกับสิ่งนี้ (กล่าวคือวัดค่าที่ดีเช่นวัด Lebesgue เป็นมาตรการที่เป็นนามธรรมมากขึ้น) ดังนั้นเราจึงต้องการเพื่อทำสิ่งที่มีประโยชน์ การลดขนาดเป็นหัวใจของ RNDμνfμνμν

กลับไปที่จุด @ whuber ในความคิดเห็นที่มีความละเอียดอ่อนเป็นพิเศษในการทำไมมันมีความปลอดภัยที่จะไม่สนใจปัญหาของ0/0นั่นเพราะมีมาตรการที่เรากำลังเท่านั้นที่เคยกำหนดสิ่งที่ขึ้นอยู่กับชุดของการวัดดังนั้นในชุดใดกับเราก็สามารถทำให้ RND เราใช้ค่าใด ๆ พูด1ดังนั้นไม่ใช่ว่ามีความปลอดภัยภายใน แต่ค่อนข้างที่ใดก็ตามที่เราจะมีเป็นชุดของการวัด wrtดังนั้นเราจึงสามารถกำหนด RND ของเราให้เป็นสิ่งที่ดีโดยไม่กระทบอะไรเลย0/0μ ( ) = 0 1 0 / 0 0 / 0 0 μ0Aμ(A)=010/00/00μ

ตัวอย่างเช่นสมมติว่าสำหรับบางตัว จากนั้น ดังนั้นเราจึงมีคือ RND (สิ่งนี้สามารถพิสูจน์ได้อย่างเป็นทางการมากขึ้นโดยการเปลี่ยนแปลงของทฤษฎีบทการวัด) นี่เป็นสิ่งที่ดีเพราะเราได้กู้คืนปัจจัยการปรับขนาดแล้วk > 0 ν ( ) = kμ=νk>0f ( x ) = k = d ν

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

นี่คือตัวอย่างที่สองเพื่อเน้นว่าการเปลี่ยน RND ในชุดการวัดไม่มีผลกับพวกเขาอย่างไร ปล่อยให้ , นั่นคือมาตรฐานปกติ PDF บวกถ้าอินพุตมีเหตุผลและให้เป็น RV ที่มีความหนาแน่นนี้ นี่หมายความว่า ดังนั้นที่จริงแล้วยังคงเป็นมาตรฐาน Gaussian RV มันไม่ได้ส่งผลกระทบต่อการกระจายในทางที่จะเปลี่ยนในเพราะมันเป็นชุดของการวัด wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ\

เป็นตัวอย่างสุดท้ายสมมติว่าและและให้และเป็นค่าการแจกแจงตามลำดับ จำได้ว่า pmf เป็น RND ที่เกี่ยวกับการนับการวัดและเนื่องจากมีคุณสมบัติที่ปรากฎว่า XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

เพื่อให้เราสามารถคำนวณ

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

ดังนั้นเนื่องจากสำหรับทั้งหมดในการสนับสนุนของเราสามารถ rescale การรวมกับการแจกแจงปัวซงในการรวมกับการแจกแจงทวินามแม้ว่าเพราะทุกอย่างแยกกันมันดูเหมือนเล็กน้อย ผลลัพธ์.n YP(X=n)>0nY


ฉันตอบคำถามทั่วไปของคุณเพิ่มเติม แต่ไม่ได้สัมผัสกับ divergences ของ KL สำหรับผมอย่างน้อยผมพบความแตกต่าง KL ง่ายมากที่จะแปลความหมายในแง่ของการทดสอบสมมติฐานเช่น @kjetil คำตอบข Halvorsen ของที่นี่ ถ้าและมีการวัดที่ครอบงำทั้งสองโดยใช้เราสามารถกู้คืนแบบฟอร์มด้วยความหนาแน่นดังนั้นสำหรับฉันฉันพบว่าง่ายขึ้นμ d PPQμdPdQ=dP/dμdQ/dμ:=p/q


3
ฉันสนุกกับการแสดงออกนี้ (เพราะฉันสนุกกับการมีส่วนร่วมทั้งหมดของคุณ) แต่ที่ด้านล่างดูเหมือนว่าเป็นการยืนยัน (ซ้ำ) ยืนยันว่าทำให้รู้สึกบางอย่าง - แต่มันไม่ได้ มีบางอย่างเกิดขึ้นกับการวัดที่ไม่ได้เกิดขึ้นโดยอัตโนมัติกับฟังก์ชั่นของค่าจริง: คุณอาจเพิกเฉยต่อสิ่งที่เกิดขึ้นกับชุดของศูนย์การวัด นั่นเป็นวิธีที่คุณหลีกเลี่ยงการทำความเข้าใจกับในการตั้งค่าอนุพันธ์ Radon-Nikodym 0 / 00/00/0
whuber

1
@whuber ขอบคุณมากสำหรับความคิดเห็นที่ช่วยได้จริงๆ ฉันพยายามอัปเดตถึงที่อยู่นั้นแล้ว
jld
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.