ตัวประมาณความน่าจะเป็นสูงสุดของการแจกแจงร่วมที่ให้ไว้มีเพียงจำนวนเล็กน้อย


12

ให้จะกระจายร่วมกันของสองตัวแปรเด็ดขาดX , Yกับx , y ที่{ 1 , ... , K } พูดว่าตัวอย่างnถูกดึงมาจากการกระจายตัวนี้ แต่เราจะได้รับจำนวนเล็กน้อยเท่านั้นสำหรับj = 1 , , K :px,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

ประมาณการความน่าจะเป็นสูงสุดคืออะไรได้รับS J , T J ? เป็นที่รู้จักกันไหม? คำนวณความเป็นไปได้? มีแนวทางอื่นที่สมเหตุสมผลสำหรับปัญหานี้นอกเหนือจาก ML หรือไม่?px,ySj,Tj


2
ส่วนต่างนั้นไม่มีข้อมูล * เกี่ยวกับการแจกแจงร่วม (แน่นอนว่านี่คือจุดของ copulas) * หรืออย่างน้อยก็แทบจะไม่ - แน่นอนว่าอัตรากำไรขั้นต้นมีข้อมูลอย่างน้อยเนื่องจากจำนวนการตกแต่งภายในไม่สามารถเกินระยะขอบที่เกิดขึ้นได้คุณมีการแจกแจงร่วมเฉพาะหรือไม่ ทำไมคุณถึงใช้maximum-entropyแท็ก คุณเป็นโซลูชั่นแบบเอนโทรปีสูงสุดหรือไม่?
Glen_b -Reinstate Monica

ฉันไม่คุ้นเคยกับ copulas มากนัก พวกเขาถือสำหรับกรณีเด็ดขาดเช่นกัน? นั่นหมายความว่า - การกระจายทุกครั้งที่มีระยะขอบเท่ากันจะมีโอกาสเท่ากัน? (ฉันติดแท็กเอนโทรปีสูงสุดเพราะฉันคิดว่ามันอาจเกี่ยวข้อง)
RS

เรายังไม่มีรูปแบบการกระจายที่ระบุดังนั้นเราจึงยังไม่สามารถคำนวณได้ มีความเป็นไปได้มากมายที่นี่ มีสูตรสำหรับกรณีการจัดหมวดหมู่ที่สั่งซื้อ (หากไม่ซ้ำกัน) แต่เป้าหมายของฉันในการเพิ่มมันก็คือการสร้างแรงจูงใจสำหรับสาเหตุที่ขอบไม่ได้ให้ข้อมูลโดยทั่วไปมาก ในแง่ของกรณีนับเด็ดขาดฟิชเชอร์ถือว่าระยะขอบเป็นเรื่องไม่สำคัญเกี่ยวกับข้อต่อดังนั้นการทดสอบที่แน่นอนของ Fisher-Irwin หากคุณต้องการเอนโทรปีสูงสุดคุณอาจได้รับโซลูชั่นเอนโทรปีสูงสุด แต่ฉันไม่รู้ว่ามันจะมีข้อมูลมากเกี่ยวกับ ...P(x|θ)
Glen_b

(ctd) ... โครงสร้าง ไม่ว่าจะเป็นกรณี ME หรือ ML ฉันคิดว่าคุณจะต้องมีรูปแบบบางอย่างก่อนไม่ว่าจะเป็น bivariate multinomial, bivariate hypergeometric หรืออะไรที่มีโครงสร้างมากกว่า ดูคำถามนี้ที่ผู้เขียนใส่การอ้างอิงลงในคำตอบ ที่อาจช่วยได้
Glen_b -Reinstate Monica

1
ฉันหมายถึงการแจกแจงพหุนามแบบหลายตัวแปรทั่วไป คำถามพูดถึงกรณีที่มีการจ่ายเงินก้อนโตและเราเห็นตัวอย่างจากการแจกแจงร่วม ที่นี่เรามีผลรวมของตัวอย่าง ฉันคิดว่าปัญหาถูกกำหนดไว้อย่างดีในกรณี ML (การแก้ปัญหาอาจไม่ซ้ำกัน แต่ฉันไม่รู้)
RS

คำตอบ:


4

ปัญหาประเภทนี้ได้รับการศึกษาในบทความ "การเพิ่มข้อมูลในตารางฉุกเฉินแบบหลายทางด้วยจำนวนผลรวมคงที่คงที่"โดย Dobra et al (2006) ให้แทนค่าพารามิเตอร์ของโมเดลให้nแทนตารางจำนวนเต็มที่ไม่ได้รับการนับสำหรับคู่( x , y ) แต่ละคู่และให้C ( S , T )เป็นชุดของตารางจำนวนเต็มที่มีจำนวนนับเท่ากับ( S , T ) . จากนั้นความน่าจะเป็นในการสังเกตจำนวนนับ( S , T )คือ: p (θn(x,y)C(S,T)(S,T)(S,T) โดยที่ p ( n | θ )คือการแจกแจงการสุ่มตัวอย่างหลายตัวอย่าง สิ่งนี้กำหนดฟังก์ชันความน่าจะเป็นสำหรับ ML แต่การประเมินโดยตรงนั้นไม่สามารถทำได้ยกเว้นปัญหาเล็ก ๆ วิธีที่พวกเขาแนะนำคือ MCMC โดยที่คุณจะต้องอัพเดต nและ altern

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)nθโดยการสุ่มตัวอย่างจากการกระจายข้อเสนอและยอมรับการเปลี่ยนแปลงตามอัตราส่วนการยอมรับของมหานคร - เฮสติ้งส์ ซึ่งอาจนำไปปรับใช้ในการค้นหาสูงสุดประมาณกว่าใช้ Monte Carlo EM θ

วิธีการที่แตกต่างกันจะใช้วิธีการแปรผันที่ใกล้เคียงกับผลรวมมากกว่าnข้อ จำกัด เล็กน้อยสามารถเข้ารหัสเป็นกราฟและปัจจัยการอนุมานมากกว่าθจะถูกนำมาใช้ในการกระจายความคาดหวังnθ

เพื่อดูว่าทำไมปัญหานี้เป็นเรื่องยากและไม่ยอมรับวิธีการแก้ปัญหาที่น่ารำคาญพิจารณากรณีที่ ) การใช้Sเป็นผลรวมของแถวและTเป็นผลรวมของคอลัมน์จะมีตารางที่เป็นไปได้สองตาราง: [ 0 1 2 0 ]S=(1,2),T=(2,1)ST ดังนั้นฟังก์ชั่นความน่าจะเป็น พี(S,T | θ)=3หน้า12หน้า2 21 +6หน้า11หน้า21หน้า22 MLE สำหรับปัญหานี้คือ P x , Y = [ 0 1 / 3 2 / 3 0 ]

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
ซึ่งสอดคล้องกับสมมติว่าตารางด้านซ้าย ในทางตรงกันข้ามการประมาณการที่คุณจะได้รับโดยสมมติว่าเป็นอิสระ ซึ่ง มีค่าความน่าจะเป็นที่น้อยลง
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]

เป็นไปไม่ได้ที่จะได้รับสารละลายวิเคราะห์?
Ben Kuhn

θθ={θx,y}(x,y)

ฉันไม่สงสัยเลยว่าจะเป็นวิธีการวิเคราะห์ ฉันเพิ่มตัวอย่างเพื่ออธิบายสิ่งนี้
Tom Minka

ขอบคุณ บางทีมันอาจจะเป็นจริงหรือไม่? จากนั้นการปรับเงื่อนไขของผลรวมระยะขอบจะเหมือนกับการปรับเงื่อนไขการแจกแจงของระยะขอบ (หลังจากการทำให้เป็นปกติ) และความเป็นไปได้ในการบันทึกสำหรับตารางจำนวนเต็มที่ไม่ได้รับการจัดสรรแต่ละรายการจะแปรผันตามสัดส่วนของเอนโทรปี อาจมีบางสิ่งบางอย่างใน AEP ใช่ไหม
RS

1

ตามที่ได้รับการชี้โดย @Glen_b นี่เป็นการระบุที่ไม่เพียงพอ ฉันไม่คิดว่าคุณสามารถใช้โอกาสสูงสุดได้จนกว่าคุณจะสามารถระบุโอกาสได้อย่างเต็มที่

หากคุณยินดีที่จะรับเอกราชปัญหานี้ค่อนข้างง่าย (โดยบังเอิญฉันคิดว่าวิธีแก้ปัญหานั้นจะเป็นวิธีแก้ปัญหาเอนโทรปีสูงสุดที่ได้รับการแนะนำ) ถ้าคุณไม่เต็มใจหรือสามารถที่จะกำหนดโครงสร้างเพิ่มเติมในปัญหาของคุณและคุณยังคงต้องการชนิดของการประมาณค่าของเซลล์บางอย่างอาจจะเป็นคุณสามารถใช้Fréchet-Hoeffding ขอบเขตเชื่อม ฉันไม่คิดว่าคุณจะไปได้ไกลกว่านี้หากไม่มีสมมติฐานเพิ่มเติม


ความน่าจะเป็นในเรื่องนี้อาจจะเป็นพหุนาม ทำไมจึงไม่เพียงพอ
RS

เมื่อฉันเข้าใจแล้วความน่าจะเป็นคือการทำงานของพารามิเตอร์ที่กำหนดข้อมูล ที่นี่คุณไม่มีค่าสำหรับแต่ละเซลล์เพียงระยะขอบดังนั้นคุณไม่มีฟังก์ชั่นเดียวของพารามิเตอร์ที่คุณสามารถคำนวณได้ โดยทั่วไปมีการกำหนดค่าเซลล์จำนวนมากเข้ากันได้กับระยะขอบและแต่ละคนจะให้โอกาสที่แตกต่างกัน
F. Tusell

1
pp

1

px,ypx=ypx,ypy=xpx,y

สิ่งที่ไม่ถูกต้องมีดังนี้:

px,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

pxpy


p=(abcd)0<adp=(0b+ac+ada)


X,Y

H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

gk

1logpx,y=λx+λypx,y=e1λxλy

xpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.

S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420

คุณคำนวณความน่าจะเป็นไม่ถูกต้อง ตัวอย่างเช่นคุณลืมใส่ค่าสัมประสิทธิ์ทวินาม แต่คุณพูดถูกว่าเมทริกซ์สองตัวนี้มีการแจกแจงร่วมของจำนวนนับที่แตกต่างกันแม้ว่าพวกมันจะให้การกระจายของจำนวนมาร์จิ้นเดียวกัน (Yikes!) ฉันจะคิดเรื่องนี้มากกว่านี้
Ben Kuhn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.