นี่คือเรื่องราวเกี่ยวกับดีกรีอิสระและพารามิเตอร์ทางสถิติและทำไมจึงเป็นเรื่องดีที่ทั้งสองมีการเชื่อมต่อโดยตรงที่เรียบง่าย
ในอดีตคำศัพท์" - 1 " ปรากฏอยู่ในการศึกษาของออยเลอร์เกี่ยวกับฟังก์ชันเบต้า เขาใช้การตั้งค่าพารามิเตอร์นั้นในปี 1763 และเป็นเช่นนั้น Adrien-Marie Legendre: การใช้งานของพวกเขาสร้างแบบแผนทางคณิตศาสตร์ที่ตามมา งานนี้ antedates แอปพลิเคชันทางสถิติที่รู้จักทั้งหมด−1
ทฤษฎีทางคณิตศาสตร์ที่ทันสมัยให้ตัวชี้วัดที่กว้างขวางผ่านความมั่งคั่งของการประยุกต์ใช้ในการวิเคราะห์ทฤษฎีจำนวนและรูปทรงเรขาคณิตที่ " - 1 " แง่จริงมีความหมายบางอย่าง ฉันได้ร่างเหตุผลบางประการในการแสดงความคิดเห็นต่อคำถาม−1
สิ่งที่น่าสนใจยิ่งกว่าคือสิ่งที่ควรจะเป็นการกำหนดพารามิเตอร์เชิงสถิติ ที่ไม่ชัดเจนและไม่จำเป็นต้องเหมือนกับการประชุมทางคณิตศาสตร์ มีเว็บขนาดใหญ่ที่มีการแจกแจงความน่าจะเป็น ดังนั้นอนุสัญญาที่ใช้ในการตั้งชื่อ (นั่นคือพารามิเตอร์) หนึ่งครอบครัวมักจะหมายถึงการประชุมที่เกี่ยวข้องกับชื่อครอบครัวที่เกี่ยวข้อง เปลี่ยนการกำหนดพารามิเตอร์หนึ่งรายการและคุณจะต้องการเปลี่ยนแปลงทั้งหมด ดังนั้นเราอาจพิจารณาความสัมพันธ์เหล่านี้เพื่อหาเบาะแส
มีเพียงไม่กี่คนที่ไม่เห็นด้วยว่าครอบครัวการแจกจ่ายที่สำคัญที่สุดนั้นมาจากครอบครัวปกติ จำได้ว่าตัวแปรสุ่มXจะกล่าวว่าเป็น "ปกติกระจาย" เมื่อ( X - μ ) / σมีความหนาแน่นของความน่าจะเป็นF ( x )สัดส่วนกับประสบการณ์( - x 2 / 2 ) เมื่อσ = 1และμ = 0 , Xถูกกล่าวว่ามีการแจกแจงแบบปกติมาตรฐานX(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
ชุดข้อมูลจำนวนมากx 1 , x 2 , … , x n ได้รับการศึกษาโดยใช้สถิติที่ค่อนข้างง่ายซึ่งเกี่ยวข้องกับการรวมกันอย่างมีเหตุผลของข้อมูลและกำลังไฟต่ำ (โดยทั่วไปคือกำลังสอง) เมื่อข้อมูลเหล่านั้นถูกสร้างแบบจำลองเป็นตัวอย่างสุ่มจากการแจกแจงแบบปกติ - เพื่อให้แต่ละx ฉันถูกมองว่าเป็นการรับรู้ของตัวแปรปกติX i , Xทั้งหมดที่ฉันแบ่งปันการกระจายทั่วไปและเป็นอิสระ - การกระจายของสถิติเหล่านั้น ถูกกำหนดโดยการแจกแจงแบบปกตินั้น สิ่งที่เกิดขึ้นบ่อยที่สุดในทางปฏิบัติคือx1,x2,…,xnxiXiXi
t ν ,การแจกแจงของนักเรียน tด้วย ν = n - 1 "องศาอิสระ" นี่คือการแจกแจงของสถิติ t = ˉ Xtνtν=n−1se ( X )โดยที่ ˉ X =(X1+X2+⋯+Xn)/nจำลองค่าเฉลี่ยของข้อมูลและse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/nn ) √(X21+X22+⋯+X2n)/(n−1)−ˉX2se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ is the standard error of the mean. The division by n−1n−1 shows that nn must be 22 or greater, whence νν is an integer 11 or greater. The formula, although apparently a little complicated, is the square root of a rational function of the data of degree two: it is relatively simple.
χ2νχ2ν, the χ2χ2 (chi-squared) distribution with νν "degrees of freedom" (d.f.). This is the distribution of the sum of squares of νν independent standard Normal variables. The distribution of the mean of the squares of these variables will therefore be a χ2χ2 distribution scaled by 1/ν1/ν: I will refer to this as a "normalized" χ2χ2 distribution.
Fν1,ν2Fν1,ν2, the FF ratio distribution with parameters (ν1,ν2)(ν1,ν2) is the ratio of two independent normalized χ2χ2 distributions with ν1ν1 and ν2ν2 degrees of freedom.
Mathematical calculations show that all three of these distributions have densities. Importantly, the density of the χ2νχ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (ΓΓ) function. Let's compare them:
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
This shows that twice a χ2νχ2ν variable has a Gamma distribution with parameter ν/2ν/2. The factor of one-half is bothersome enough, but subtracting 11 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/21/2), then the exponent in its density function must be one less than half that count.
Why is the factor of 1/21/2 less troublesome than a difference of 11? The reason is that the factor will remain consistent when we add things up. If the sum of squares of nn independent standard Normals is proportional to a Gamma distribution with parameter nn (times some factor), then the sum of squares of mm independent standard Normals is proportional to a Gamma distribution with parameter mm (times the same factor), whence the sum of squares of all n+mn+m variables is proportional to a Gamma distribution with parameter m+nm+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1−1" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of xx in the formula, so that a χ21χ21 distribution would be related to a "Gamma(0)(0)" distribution (since the power of xx in its PDF is 1−1=01−1=0), then the sum of three χ21χ21 distributions would have to be called a "Gamma(2)(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1−1 from the formula and absorbing it in the parameter.
Similarly, the probability function of an FF ratio distribution is closely related to Beta distributions. Indeed, when YY has an FF ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2)Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2)(ν1/2,ν2/2) distribution. Its density function is proportional to
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Furthermore--taking these ideas full circle--the square of a Student tt distribution with νν d.f. has an FF ratio distribution with parameters (1,ν)(1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of ΓΓ and Beta distributions: we should prefer calling a Γ(α)Γ(α) distribution a "Γ(2α)Γ(2α) distribution" and the Beta(α,β)(α,β) distribution ought to be called a "Beta(2α,2β)(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "FF Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1−1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.