เหตุใดจึงมี -1 ในฟังก์ชันความหนาแน่นของการแจกแจงแบบเบต้า


18

การแจกแจงเบต้าปรากฏภายใต้การกำหนดค่าสองค่า (หรือที่นี่ )

f ( x ) x α ( 1 - x ) β

f(x)xα(1x)β(1)

หรือสิ่งที่ดูเหมือนว่าจะใช้บ่อยกว่าปกติ

f ( x ) x α - 1 ( 1 - x ) β - 1

f(x)xα1(1x)β1(2)

แต่ทำไมถึงมี " - 11 " ในสูตรที่สอง?

สูตรแรกดูเหมือนจะตรงกับการแจกแจงทวินามมากขึ้น

g ( k ) p k ( 1 - p ) n - k

g(k)pk(1p)nk(3)

แต่"เห็น" จากPp 'มุมมอง นี้เป็นที่ชัดเจนโดยเฉพาะอย่างยิ่งในรุ่นเบต้าทวินามที่ααสามารถเข้าใจได้เป็นก่อนจำนวนความสำเร็จและββเป็นก่อนที่จำนวนของความล้มเหลว

เหตุใดรูปแบบที่สองจึงได้รับความนิยมอย่างแน่นอนและเหตุผลเบื้องหลังคืออะไร อะไรคือผลกระทบของการใช้อย่างใดอย่างหนึ่งและตัวแปร (เช่นสำหรับการเชื่อมต่อที่มีการกระจายทวินาม)?

มันจะดีถ้ามีใครสามารถชี้ต้นกำเนิดของการเลือกดังกล่าวและข้อโต้แย้งเริ่มต้นเพิ่มเติมสำหรับมัน แต่มันไม่จำเป็นสำหรับฉัน


3
เหตุผลที่ลึกซึ้งคือคำใบ้ในคำตอบนี้ : ffเท่ากับx α ( 1 - x ) βxα(1x)βเมื่อเทียบกับการวัดd μ = d x / ( ( x ( 1 ( x - 1 ) ))dμ=dx/((x(1x))ที่ลดคำถามของคุณไปที่ "? ตระหนักดีว่าการวัดนี้คือd μ = d (บันทึก( x1 - x ))
dμ=d(log(x1x))
แนะนำวิธี "ถูกต้อง" เพื่อทำความเข้าใจการแจกแจงเหล่านี้คือการใช้การแปลงโลจิสติก: เงื่อนไข "-11" จะหายไป
whuber

1
ฉันคิดว่าเหตุผลที่แท้จริงที่เกิดขึ้นนั้นเป็นสิ่งที่เกิดขึ้นในอดีต - เพราะมันปรากฏในลักษณะของฟังก์ชันเบต้าที่มีการแจกแจงชื่อ สำหรับเหตุผลที่มี- 11ในอำนาจที่ผมคาดหวังว่าในที่สุดจะต้องเชื่อมต่อกับเหตุผล whuber กล่าวถึง (แม้ว่าในอดีตมันมีอะไรจะทำอย่างไรกับวัดหรือแม้กระทั่งความน่าจะเป็น)
Glen_b -Reinstate Monica

2
@Glen_b มันเป็นมากกว่าในอดีต: มีเหตุผลที่ลึกซึ้ง พวกเขาเป็นเนื่องจากการเชื่อมต่อที่ใกล้ชิดระหว่างเบต้าและแกมมาฟังก์ชั่นการลดคำถามที่ว่าทำไมสัญลักษณ์ในΓ ( s ) = 0 T s - 1 E - T d ทีΓ(s)=0ts1etdtมีs - 1s1และไม่s นั่นเป็นเพราะΓเป็นผลรวมของเกาส์ เท่าเทียมกันมันคือ "ถูกต้อง" เพื่อดูΓเป็นส่วนหนึ่งของ homomorphism multiplicative t t sคูณอักขระเสริมsΓΓttsเสื้ออี- เสื้อtetกับ Haar วัด d T / Tdt/tในการคูณกลุ่ม RR× ×
whuber

1
@ นั่นเป็นเหตุผลที่ดีว่าทำไมฟังก์ชันแกมม่าควรได้รับเลือกให้เป็นเช่นนั้น (และฉันแนะนำเหตุผลดังกล่าวแล้วและฉันยอมรับรูปแบบของการให้เหตุผลคล้ายกับที่ - แต่จำเป็นต้องมีพิธีการต่าง ๆ - เข้าสู่การเลือกของออยเลอร์); เหตุผลที่น่าสนใจเหมือนกันเกิดขึ้นกับความหนาแน่น; แต่นั่นไม่ได้พิสูจน์ว่านี่เป็นเหตุผลสำหรับการเลือก (ทำไมรูปแบบจึงถูกเลือกเหมือนเดิม) เพียงว่าเป็นเหตุผลที่ดีที่จะทำเช่นนั้น รูปแบบของฟังก์ชันแกมม่า ... ctd
Glen_b -Reinstate Monica

1
ctd ... เพียงอย่างเดียวอาจเป็นเหตุผลเพียงพอที่จะเลือกรูปแบบนั้นเพื่อความหนาแน่นและเพื่อให้ผู้อื่นทำตามความเหมาะสม [บ่อยครั้งที่ตัวเลือกถูกสร้างขึ้นเพื่อเหตุผลที่ง่ายกว่าซึ่งตัวเลือกที่เราสามารถระบุได้ในภายหลังและจากนั้นก็มักจะใช้เหตุผลที่น่าสนใจในการทำสิ่งอื่น เรารู้หรือไม่ว่าทำไมมันถึงถูกเลือกมาตั้งแต่แรก?] - คุณอธิบายอย่างชัดเจนว่ามีเหตุผลว่าทำไมเราควรเลือกความหนาแน่นให้เป็นแบบนั้นมากกว่าที่จะเป็นแบบนั้น ที่เกี่ยวข้องกับลำดับของคนที่เลือก (เพื่อใช้ในลักษณะนั้นและตามหลังชุดสูท) และเหตุผลของพวกเขาในเวลาที่พวกเขาเลือก
Glen_b -Reinstate Monica

คำตอบ:


9

นี่คือเรื่องราวเกี่ยวกับดีกรีอิสระและพารามิเตอร์ทางสถิติและทำไมจึงเป็นเรื่องดีที่ทั้งสองมีการเชื่อมต่อโดยตรงที่เรียบง่าย

ในอดีตคำศัพท์" - 1 " ปรากฏอยู่ในการศึกษาของออยเลอร์เกี่ยวกับฟังก์ชันเบต้า เขาใช้การตั้งค่าพารามิเตอร์นั้นในปี 1763 และเป็นเช่นนั้น Adrien-Marie Legendre: การใช้งานของพวกเขาสร้างแบบแผนทางคณิตศาสตร์ที่ตามมา งานนี้ antedates แอปพลิเคชันทางสถิติที่รู้จักทั้งหมด1

ทฤษฎีทางคณิตศาสตร์ที่ทันสมัยให้ตัวชี้วัดที่กว้างขวางผ่านความมั่งคั่งของการประยุกต์ใช้ในการวิเคราะห์ทฤษฎีจำนวนและรูปทรงเรขาคณิตที่ " - 1 " แง่จริงมีความหมายบางอย่าง ฉันได้ร่างเหตุผลบางประการในการแสดงความคิดเห็นต่อคำถาม1

สิ่งที่น่าสนใจยิ่งกว่าคือสิ่งที่ควรจะเป็นการกำหนดพารามิเตอร์เชิงสถิติ ที่ไม่ชัดเจนและไม่จำเป็นต้องเหมือนกับการประชุมทางคณิตศาสตร์ มีเว็บขนาดใหญ่ที่มีการแจกแจงความน่าจะเป็น ดังนั้นอนุสัญญาที่ใช้ในการตั้งชื่อ (นั่นคือพารามิเตอร์) หนึ่งครอบครัวมักจะหมายถึงการประชุมที่เกี่ยวข้องกับชื่อครอบครัวที่เกี่ยวข้อง เปลี่ยนการกำหนดพารามิเตอร์หนึ่งรายการและคุณจะต้องการเปลี่ยนแปลงทั้งหมด ดังนั้นเราอาจพิจารณาความสัมพันธ์เหล่านี้เพื่อหาเบาะแส

มีเพียงไม่กี่คนที่ไม่เห็นด้วยว่าครอบครัวการแจกจ่ายที่สำคัญที่สุดนั้นมาจากครอบครัวปกติ จำได้ว่าตัวแปรสุ่มXจะกล่าวว่าเป็น "ปกติกระจาย" เมื่อ( X - μ ) / σมีความหนาแน่นของความน่าจะเป็นF ( x )สัดส่วนกับประสบการณ์( - x 2 / 2 ) เมื่อσ = 1และμ = 0 , Xถูกกล่าวว่ามีการแจกแจงแบบปกติมาตรฐานX(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

ชุดข้อมูลจำนวนมากx 1 , x 2 , , x n ได้รับการศึกษาโดยใช้สถิติที่ค่อนข้างง่ายซึ่งเกี่ยวข้องกับการรวมกันอย่างมีเหตุผลของข้อมูลและกำลังไฟต่ำ (โดยทั่วไปคือกำลังสอง) เมื่อข้อมูลเหล่านั้นถูกสร้างแบบจำลองเป็นตัวอย่างสุ่มจากการแจกแจงแบบปกติ - เพื่อให้แต่ละx ฉันถูกมองว่าเป็นการรับรู้ของตัวแปรปกติX i , Xทั้งหมดที่ฉันแบ่งปันการกระจายทั่วไปและเป็นอิสระ - การกระจายของสถิติเหล่านั้น ถูกกำหนดโดยการแจกแจงแบบปกตินั้น สิ่งที่เกิดขึ้นบ่อยที่สุดในทางปฏิบัติคือx1,x2,,xnxiXiXi

  1. t ν ,การแจกแจงของนักเรียน tด้วย ν = n - 1 "องศาอิสระ" นี่คือการแจกแจงของสถิติ t = ˉ Xtνtν=n1se ( X )โดยที่ ˉ X =(X1+X2++Xn)/nจำลองค่าเฉลี่ยของข้อมูลและse(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nn )(X21+X22++X2n)/(n1)ˉX2se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2 is the standard error of the mean. The division by n1n1 shows that nn must be 22 or greater, whence νν is an integer 11 or greater. The formula, although apparently a little complicated, is the square root of a rational function of the data of degree two: it is relatively simple.
  2. χ2νχ2ν, the χ2χ2 (chi-squared) distribution with νν "degrees of freedom" (d.f.). This is the distribution of the sum of squares of νν independent standard Normal variables. The distribution of the mean of the squares of these variables will therefore be a χ2χ2 distribution scaled by 1/ν1/ν: I will refer to this as a "normalized" χ2χ2 distribution.

  3. Fν1,ν2Fν1,ν2, the FF ratio distribution with parameters (ν1,ν2)(ν1,ν2) is the ratio of two independent normalized χ2χ2 distributions with ν1ν1 and ν2ν2 degrees of freedom.

Mathematical calculations show that all three of these distributions have densities. Importantly, the density of the χ2νχ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (ΓΓ) function. Let's compare them:

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

This shows that twice a χ2νχ2ν variable has a Gamma distribution with parameter ν/2ν/2. The factor of one-half is bothersome enough, but subtracting 11 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/21/2), then the exponent in its density function must be one less than half that count.

Why is the factor of 1/21/2 less troublesome than a difference of 11? The reason is that the factor will remain consistent when we add things up. If the sum of squares of nn independent standard Normals is proportional to a Gamma distribution with parameter nn (times some factor), then the sum of squares of mm independent standard Normals is proportional to a Gamma distribution with parameter mm (times the same factor), whence the sum of squares of all n+mn+m variables is proportional to a Gamma distribution with parameter m+nm+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.

If, however, we were to remove that pesky-looking "11" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of xx in the formula, so that a χ21χ21 distribution would be related to a "Gamma(0)(0)" distribution (since the power of xx in its PDF is 11=011=0), then the sum of three χ21χ21 distributions would have to be called a "Gamma(2)(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the 11 from the formula and absorbing it in the parameter.

Similarly, the probability function of an FF ratio distribution is closely related to Beta distributions. Indeed, when YY has an FF ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2)Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2)(ν1/2,ν2/2) distribution. Its density function is proportional to

fZ(z)zν1/21(1z)ν2/21.

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "11" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.


1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim

I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b)(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add aa (not a1a1) to the number of successes and bb (not b1b1) to the number of failures.
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for αα and ββ seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of αα and ββ--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0α,β>0, if UGamma(α,1)UGamma(α,1) and VGamma(β,1)VGamma(β,1) are independent, then X=U/(U+V)X=U/(U+V) is Beta(α,β)Beta(α,β), and the density of XX is proportional to xα1(1x)β1xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!x!. Since it is not possible to compute x!x! directly if xx is not integer, the idea was to find a function for any x0x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1f(1)=1 and f(x+1)=xf(x)f(x+1)=xf(x). We have Γ(x)=(x1)!Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber

The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.