ความสัมพันธ์ระหว่างการแจกแจงแบบทวินามและเบต้า


27

ฉันเป็นโปรแกรมเมอร์มากกว่านักสถิติดังนั้นฉันหวังว่าคำถามนี้จะไร้เดียงสาเกินไป

มันเกิดขึ้นในการสุ่มตัวอย่างการประมวลผลโปรแกรมในเวลาสุ่ม ถ้าฉันใช้เวลาสุ่มตัวอย่าง N = 10 ของสถานะของโปรแกรมฉันจะเห็นฟังก์ชั่น Foo ที่กำลังทำงานอยู่ตัวอย่างเช่น I = 3 ของตัวอย่างเหล่านั้น ฉันสนใจในสิ่งที่บอกฉันเกี่ยวกับเวลาจริง ๆ ที่ Foo กำลังดำเนินการ

ฉันเข้าใจว่าฉันกระจายแบบทวินามด้วยค่าเฉลี่ย F * N ฉันก็รู้ว่าเนื่องจาก I และ N เป็น F ตามการแจกแจงแบบเบต้า อันที่จริงฉันได้ตรวจสอบแล้วโดยโปรแกรมความสัมพันธ์ระหว่างการแจกแจงสองอย่างนั่นคือ

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

ปัญหาคือฉันไม่มีความรู้สึกที่เข้าใจได้ง่ายสำหรับความสัมพันธ์ ฉันไม่สามารถ "รูป" ทำไมจึงเป็นไปได้

แก้ไข: คำตอบทั้งหมดเป็นสิ่งที่ท้าทายโดยเฉพาะอย่างยิ่ง @ whuber ซึ่งฉันยังคงต้องห้อมล้อม แต่การนำสถิติในการสั่งซื้อเป็นประโยชน์มาก อย่างไรก็ตามฉันได้ตระหนักว่าฉันควรถามคำถามพื้นฐานเพิ่มเติม: เมื่อให้ฉันกับ N การกระจายตัวของ F คืออะไร ทุกคนได้ชี้ให้เห็นว่ามันเป็นเบต้าซึ่งฉันรู้ ในที่สุดผมก็คิดออกจากวิกิพีเดีย ( Conjugate ก่อน ) Beta(I+1, N-I+1)ว่ามันดูเหมือนจะเป็น หลังจากสำรวจด้วยโปรแกรมก็ดูเหมือนจะเป็นคำตอบที่ถูกต้อง ดังนั้นฉันต้องการทราบว่าฉันผิด และฉันยังคงสับสนเกี่ยวกับความสัมพันธ์ระหว่างสอง cdf ที่แสดงด้านบนทำไมพวกเขารวมถึง 1 และถ้าพวกเขามีอะไรเกี่ยวข้องกับสิ่งที่ฉันอยากรู้


หาก "สิ่งที่คุณอยากรู้" คือ "เวลาจริงที่ Foo กำลังดำเนินการ" คุณจะถามเกี่ยวกับช่วงความเชื่อมั่นแบบทวินามหรือช่วงเวลาที่น่าเชื่อถือแบบทวินาม (Bayesian)
whuber

@whuber: ฉันได้ใช้วิธีการสุ่มหยุดชั่วคราวของการปรับแต่งประสิทธิภาพมานานกว่า 3 ทศวรรษและคนอื่น ๆ ก็ค้นพบมันเช่นกัน ฉันได้บอกผู้คนแล้วว่าหากเงื่อนไขบางอย่างเป็นจริงในตัวอย่างสุ่ม 2 ครั้งขึ้นไปการลบออกจะช่วยประหยัดเวลาได้ดี เศษส่วนที่ดีเพียงใดคือสิ่งที่ฉันพยายามอธิบายให้ชัดเจนโดยสมมติว่าเราไม่เคยรู้จัก Bayesian มาก่อน นี่คือเปลวไฟทั่วไป: stackoverflow.com/questions/375913/ …และstackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey

1
ความคิดดี. สมมติฐานทางสถิติคือการขัดจังหวะเป็นอิสระจากรัฐดำเนินการซึ่งเป็นสมมติฐานที่สมเหตุสมผล ช่วงความเชื่อมั่นทวินามเป็นเครื่องมือที่ดีที่จะใช้เพื่อเป็นตัวแทนของความไม่แน่นอน (อาจเป็นที่เปิดตาได้เช่นกัน: ในสถานการณ์ 3/10 ของคุณ 95% CI สองด้านแบบสมมาตรสำหรับความน่าจะเป็นที่แท้จริงคือ [6.7%, 65.2%] ในสถานการณ์ 2/10 ช่วงเวลาคือ [2.5 %, 55.6%]. เหล่านี้เป็นช่วงกว้าง! แม้จะมี 2/3, ขีด จำกัด ล่างยังน้อยกว่า 10%. บทเรียนที่นี่คือสิ่งที่ค่อนข้างหายากสามารถเกิดขึ้นได้สองครั้ง)
whuber

@whuber: ขอบคุณ คุณถูก. สิ่งที่มีประโยชน์มากกว่าคือค่าที่คาดหวัง เท่าที่นักบวชไปผมชี้ให้เห็นว่าถ้าคุณเห็นอะไรซักครั้งมันไม่ได้บอกอะไรคุณมากนักเว้นแต่คุณจะรู้ว่าโปรแกรมนั้นอยู่ในวงวนไม่สิ้นสุด (หรือยาวมาก)
Mike Dunlavey

ฉันคิดว่าคำตอบและความคิดเห็นทั้งหมดได้รับความกระจ่างและถูกต้องแล้ว แต่ไม่มีใครแตะต้องความเท่าเทียมที่น่าสนใจที่ @MikeDunlavey ใส่ในโพสต์ดั้งเดิมของเขา ความเท่าเทียมกันนี้สามารถพบได้ในรุ่นเบต้า wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_functionแต่ไม่มีคำอธิบายว่าทำไมถึงเป็นเช่นนั้นมันเพิ่งระบุเป็นทรัพย์สิน
bdeonovic

คำตอบ:


27

พิจารณาสถิติการสั่งซื้อx[0]x[1]x[n]ของn+1เป็นอิสระจากการแจกแจงแบบเดียวกัน เนื่องจากสถิติการสั่งซื้อมีการแจกแจงแบบเบต้าโอกาสที่x[k]ไม่เกินpจะได้รับจากอินทิกรัลเบต้า

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(ทำไมนี่คืออะไรนี่คือการสาธิตที่ไม่เข้มงวด แต่น่าจดจำโอกาสที่x[k]อยู่ระหว่างpและp+dpคือโอกาสที่ค่าn+1สม่ำเสมอซึ่งkอยู่ระหว่าง0ถึงpอย่างน้อยหนึ่งของพวกเขาอยู่ระหว่างpและp+dpและโกหกที่เหลือระหว่างp+dpและ1 . ในการสั่งซื้อครั้งแรกในเล็กdpเราจะต้องพิจารณากรณีที่ว่าหนึ่งค่า (คือx[k]เอง) อยู่ระหว่างpและp+dpและดังนั้นจึงnkค่าเกินp+dpพี เนื่องจากค่ามีความเป็นอิสระและชุดนี้น่าจะเป็นสัดส่วนกับpk(dp)(1pdp)nk k ลำดับแรกในdpนี่เท่ากับ , การรวมและการกระจายเบต้าอย่างแม่นยำ คำศัพท์ 1pk(1p)nkdpสามารถคำนวณได้โดยตรงจากการโต้แย้งนี้เป็นสัมประสิทธิ์ multinomial ( n + 11B(k+1,nk+1)หรือมาทางอ้อมว่าค่าคงที่ normalizing ของอินทิกรัล)(n+1k,1,nk)

ตามคำนิยามเหตุการณ์เป็นที่k + 1 เซนต์มูลค่าไม่เกินหน้า เท่าเทียมกันอย่างน้อยk + 1ของค่าไม่เกินp : การยืนยันที่ง่าย (และฉันหวังว่าชัดเจน) นี้ให้สัญชาตญาณที่คุณต้องการ ความน่าจะเป็นของข้อความเทียบเท่านั้นได้จากการแจกแจงแบบทวินามx[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

โดยสรุปเบต้าอินทิกรัลแบ่งการคำนวณเหตุการณ์เป็นชุดการคำนวณ: ค้นหาค่าอย่างน้อยในช่วง[ 0 , p ]ซึ่งความน่าจะเป็นที่เรามักจะคำนวณด้วย Binomial cdf ถูกแบ่งออกเป็นสองฝ่ายร่วมกัน กรณีพิเศษที่ว่าkค่าอยู่ในช่วง[ 0 , x ]และ 1 คุ้มค่าอยู่ในช่วง[ x , x + d x ]สำหรับเป็นไปได้ทั้งหมดx , 0 x < Pk+1[0,p] k[0,x][x,x+dx]x0x<pและเป็นความยาวน้อยที่สุด ข้อสรุปของ "windows" ดังกล่าวทั้งหมด[ x , x + d x ] -นั่นคือการบูรณาการ - ต้องให้ความน่าจะเป็นเช่นเดียวกับ cdf แบบทวินามdx[x,x+dx]

ข้อความแสดงแทน


ฉันขอขอบคุณความพยายาม ฉันจะต้องศึกษาเรื่องนี้จริงๆเพราะมันไม่ใช่ "ภาษาแม่" ของฉัน นอกจากนี้ฉันเห็นสัญญาณดอลลาร์จำนวนมากและการจัดรูปแบบ มีบางอย่างที่ฉันไม่รู้เกี่ยวกับสิ่งนี้ที่ทำให้ดูเหมือนคณิตศาสตร์จริงหรือไม่?
Mike Dunlavey

เกิดอะไรขึ้น? ทันใดนั้นคณิตศาสตร์ก็ปรากฏตัวขึ้นและการพิมพ์ที่นี่ช้าลงอย่างแท้จริง
Mike Dunlavey

@ ไมค์ดูmeta.stats.stackexchange.com/q/218/919
whuber

ฉันแก้ไขคำถามถ้าคุณสนใจที่จะดู ขอบคุณ
Mike Dunlavey

1
มันสายไปหน่อย แต่ในที่สุดฉันก็มีเวลาที่จะนั่งและสร้างการโต้เถียงของคุณขึ้นมาใหม่ กุญแจสำคัญคือ "สัมประสิทธิ์พหุนาม" ฉันได้ลองหามันโดยใช้สัมประสิทธิ์ทวินามเก่า ๆ และฉันก็เริ่มโกรธขึ้น ขอบคุณอีกครั้งสำหรับคำตอบที่ดี
Mike Dunlavey

12

ดูไฟล์ pdf ของ Binomial เป็นฟังก์ชั่นของ : f ( x ) = ( nxและ pdf ของเบต้าเป็นฟังก์ชันของp:g(p)=Γ(a+b)

f(x)=(nx)px(1p)nx
p คุณอาจเห็นว่ามีตัวเลือก (จำนวนเต็ม) ที่เหมาะสมสำหรับaและbเหล่านี้เหมือนกัน เท่าที่ฉันสามารถบอกได้นั่นคือทั้งหมดที่มีกับความสัมพันธ์นี้: วิธีที่pเข้าสู่ทวินามแบบ pdf เพิ่งเกิดขึ้นที่เรียกว่าการกระจายแบบเบต้า
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

ฉันรู้ว่ามันดูเหมือนกันเกือบหมด แต่ถ้าฉันแทน y แทน nx และถ้าฉันลองใช้ pdf pdf และแทนที่ x สำหรับ a-1 และ y สำหรับ b-1 ฉันจะได้รับปัจจัยเพิ่มเติมจาก (x + y + 1) หรือ n + 1 เช่น (x + y + 1)! / x! / y! * p ^ x * q ^ y ดูเหมือนจะเพียงพอแล้วที่จะทิ้งฉันไป
Mike Dunlavey

1
บางทีใครบางคนจะพูดสอดกับคำตอบแบบเต็มรูปแบบ แต่ในคำอธิบาย "สัญชาตญาณ" เราสามารถส่งค่าคงที่แบบคงที่ (เช่น ) ที่ไม่ขึ้นอยู่กับตัวแปรของดอกเบี้ย ( xและp ) แต่จำเป็นต้อง ทำให้ pdf เพิ่ม / รวมเข้ากับ 1 คุณสามารถแทนที่สัญญาณ "ความเท่าเทียมกัน" ด้วยเครื่องหมาย "ตามสัดส่วน" n+1xp
Aniko

จุดดี. ฉันคิดว่าฉันเข้าใกล้ความเข้าใจมากขึ้น ฉันยังคงพยายามที่จะพูดในสิ่งที่ x บอกคุณเกี่ยวกับการกระจาย p และทำไมทั้งสอง cdfs รวมถึง 1
Mike Dunlavey

1
ฉันใช้มุมมองที่แตกต่างกันของคำอธิบาย "ใช้งานง่าย" ในบางกรณีเราไม่สนใจค่าคงที่มากเกินไป แต่ในกรณีนี้ความสำคัญของเรื่องนี้คือการดูว่าเหตุใด n + 1 จึงปรากฏไม่ใช่ไม่ใช่ n หากคุณไม่เข้าใจว่า "สัญชาตญาณ" ของคุณไม่ถูกต้อง
whuber

ฉันแก้ไขคำถามถ้าคุณสนใจที่จะดู ขอบคุณ
Mike Dunlavey

5

FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)
That is, the likelihood that the observation plus one is greater than the expectation of the observation is the same as the likelihood that the observation plus one is greater than the expectation of the observation.

I admit that this may not help intuit the original formulation of the problem, but maybe it helps to at least see how the two distributions use the same underlying model of repeated Bernoulli trials to describe the behavior of different parameters.


I appreciate your take on it. All the answers are helping me to think about the question and possibly understand better what I'm asking.
Mike Dunlavey

I revised the question, if you care to take a look. Thanks.
Mike Dunlavey

1
เกี่ยวกับการแก้ไขของคุณ: ใช่ F~Bอีเสื้อa(ผม+1,ยังไม่มีข้อความ-ผม+1), as long as your sampling intervals are long enough that each observation is independent and identically distributed. Note that if you want to be Bayesian about it and specify a nonuniform prior distribution for what you expect the actual proportion to be, you can add something else to both parameters.
sesqu

@sesqu, could your answer be somehow related to my question here: stats.stackexchange.com/questions/147978/…? I would appreciate your thoughts on it.
Vicent


1

Can't comment on other answers, so i have to create my own answer.

Posterior = C * Likelihood * Prior (C is a constant that makes Posterior integrated to 1)

Given a model that uses Binomial distribution for likelihood, and Beta distribution for Prior. The product of the two which generates the Posterior is also a Beta distribution. Since the Prior and Posterior are both Beta, and thus they are conjugate distributions. the Prior (a Beta) is called conjugate prior for the likelihood (a Binomial). For example, if you multiply a Beta with a Normal, the Posterior is no longer a Beta. In summary, Beta and Binomial are two distributions that are frequently used in Bayesian inference. Beta is Conjugate Prior of Binomial, but the two distributions are not a subset or superset of the other.

The key idea of Bayesian inference is we are treating the parameter p as a random variable that ranges from [0,1] which is contrary to frequentist inference approach where we are treating parameter p as fixed. If you look closely to the properties of Beta distribution, you will see its Mean and Mode are solely determined by α and β irrelevant to the parameter p . This, coupled with its flexibility, is why Beta is usually used as a Prior.


1

Summary: It is often said that Beta distribution is a distribution on distributions! But what is means?

It essentially means that you may fix n,k and think of P[Bin(n,p)k] as a function of p. What the calculation below says is that the value of P[Bin(n,p)k] increases from 0 to 1 when you tune p from 0 to 1. The increasing rate at each p is exactly β(k,nk+1) at that p.

enter image description here


Let Bin(n,p) denote a Binomial random variable with n samples and the probability of success p. Using basic algebra we have

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

It has also some nice combinatorial proof, think of it as an exercise!

So, we have:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
which is a telescoping series and can be simplified as

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Remark To see an interactive version of the plot look at this. You may download the notebook or just use the Binder link.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.