CDF ปกติใดของการแจกแจงแบบแปรผันตามตัวแปรสุ่มเบต้า


14

สมมติว่าคุณกำหนด:

XBeta(α,β)

YΦ1(X)

ที่Φ1เป็นสิ่งที่ตรงกันข้ามของCDF ของการกระจายแบบปกติมาตรฐาน

คำถามของฉันคือมีการกระจายง่ายที่Yต่อไปนี้หรือที่สามารถใกล้เคียงกับY ? ฉันถามเพราะฉันสงสัยอย่างมากจากผลการจำลอง (แสดงด้านล่าง) ที่Yเปลี่ยนเป็นการแจกแจงแบบปกติเมื่อαและβสูง แต่ฉันไม่รู้ว่าทำไมมันถึงเป็นคณิตศาสตร์ (แน่นอนว่าเมื่อα=1;β=1 , XจะเหมือนกันและYจะเป็นมาตรฐานปกติ แต่ทำไมมันจะเป็นจริงสำหรับค่าที่สูงขึ้น?)

หากไม่มาบรรจบกันเพื่อปกติสิ่งที่จะพารามิเตอร์ของการที่เป็นปกติในแง่ของαและβ ? (ฉันคาดหวังว่าค่าเฉลี่ยจะเป็นΦ1(αα+β)เนื่องจากเป็นการเปลี่ยนแปลงของโหมด แต่ฉันไม่รู้ค่าเบี่ยงเบนมาตรฐาน)

(วางวิธีอื่นนี้อาจจะถามว่า "ไม่Φ(Norm(μ,σ))บรรจบกับการกระจายเบต้าสำหรับทิศทางของบางμและσ " ผมไม่แน่ใจว่าไม่ว่าจะเป็นเรื่องง่ายที่จะตอบ)

ผลการจำลอง

ที่นี่ฉันแสดงเหตุผลที่ฉันสงสัยว่าผลที่ได้เป็นเรื่องปกติ (เนื่องจากฉันไม่สามารถสำรองด้วยคณิตศาสตร์) การจำลองการสามารถทำได้ใน R กับและ ตัวอย่างเช่นการเลือกพารามิเตอร์สูงα = 3000และβ = 7000 :Yqnormrnormα=3000β=7000

hist(qnorm(rbeta(5000, 3000, 7000)))

สิ่งนี้ดูปกติqqnormและการทดสอบ Shapiro-Wilk (ซึ่งปกติคือสมมุติฐานว่าง) แนะนำเช่น:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

เพื่อสำรวจความเป็นมาตรฐานที่ลึกกว่านี้ฉันทำการจำลอง 2,000 ครั้งในแต่ละครั้งที่จำลองค่า 5,000 ค่าจากจากนั้นทำการทดสอบเพื่อเปรียบเทียบกับค่าปกติ (ฉันเลือกค่า 5K เพราะนั่นคือค่าสูงสุดที่สามารถจัดการได้และเพิ่มพลังในการตรวจจับความเบี่ยงเบนจากค่าปกติ)Yshapiro.test

ถ้าการแจกแจงเป็นเรื่องปกติเราจะคาดหวังว่าค่า p จะเหมือนกัน (เนื่องจากค่าเป็นจริง) พวกเขาอยู่ใกล้กับเครื่องแบบจริงโดยบอกว่าการแจกแจงนั้นใกล้เคียงกับปกติมาก:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

บางคนแสดงให้เห็นว่าการทดลองว่าสูงกว่าและβอยู่ใกล้การกระจายที่ได้รับเข้าสู่ภาวะปกติ (เช่นค่อนข้างห่างไกลจากปกติ แต่ลองและมันดูเหมือนจะเป็นหนึ่งในระหว่าง)αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))


2
ไม่มีอะไรน่าสนใจเกิดขึ้นที่นี่ ในฐานะที่เป็นและเบต้าเติบโตมากสมมติว่าพวกเขายังคงอยู่ในสัดส่วนเดียวกันหรืออย่างน้อยที่α / ( α + β )ยังคงอยู่ห่างจาก0และ1 จากนั้นการกระจายเบต้า( α , β )จะกลายเป็นปกติและกระจุกตัวอยู่ในช่วงแคบ ๆ โดยพลการ Φ - 1 , การหาอนุพันธ์ได้กลายเป็นเชิงเส้นโดยที่คุณแค่มองการแปลงเชิงเส้นของตัวแปรเกือบปกติ ผลลัพธ์นี้มีอะไรมากกว่านั้นเกี่ยวกับΦ - 1αβα/(α+β)01(α,β)Φ1Φ1ตัวเองและเพิ่มข้อมูลเกี่ยวกับการแจกแจงเบต้า
whuber

1
@whuber ที่ทำให้รู้สึกสำหรับขนาดใหญ่และβ (ฉันมีการจำลองสถานการณ์บางอย่างที่ทำให้ผมคิดว่านี่คือการใกล้ชิดกับปกติกว่าปกติประมาณเทียบเท่าเบต้า แต่เมื่อ rerunning ผมคิดว่าผมมีความผิดพลาดในเวลานั้น) ความคิดใด ๆ ในα = 2 ; β = 2หรือไม่ Dist อยู่ไกลจากปกติ แต่ปริมาณของมันอยู่ใกล้มาก αβα=2β=2
David Robinson

1
@whuber เช่นลองแล้วhist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)) hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))กล่าวอีกนัยหนึ่งเมื่อเป็นเรื่องปกติเพราะเบต้าเป็นแบบสม่ำเสมอเมื่อαและβสูงเพราะเป็นเบต้าปกติประมาณ - แต่ทำไมมันถึงทำงานเมื่อมันเท่ากันและอยู่ตรงกลาง ปกติหรือไม่สม่ำเสมอ? α=β=1αβ
David Robinson

5
น่าสนใจกว่านี้แน่นอน! คุณถูกต้องว่า Beta ไม่ใกล้เคียงกับ Normal มากนัก แต่การแปลงนั้นจะอยู่ที่ Normal ประมาณแม้จะเป็นพารามิเตอร์ขนาดเล็กของ Beta ก็ตาม ความเบี่ยงเบนจาก Normality ปรากฏชัดเจนในหางรอบหรือมากกว่า แต่มีขนาดเล็กอย่างน่าทึ่งทั่วร่างกายของการกระจาย ในที่สุดสิ่งนี้สามารถตรวจสอบย้อนกลับไปยังพฤติกรรมของกฎหมายพลังงานของเบต้าก้อย Z=±3
whuber

คำตอบ:


7

สรุป

คุณได้ค้นพบส่วนหนึ่งของการก่อสร้างใหม่ที่อธิบายไว้ในทฤษฎีลิมิตขั้นกลางสำหรับตัวอย่างมีเดียซึ่งแสดงการวิเคราะห์ค่ามัธยฐานของตัวอย่าง (การวิเคราะห์เห็นได้ชัดว่ามีผลบังคับใช้โดยอนุโลมกับจำนวนใด ๆ ไม่ใช่แค่ค่ามัธยฐาน) ดังนั้นจึงไม่น่าแปลกใจที่พารามิเตอร์เบต้าขนาดใหญ่ (ตรงกับตัวอย่างขนาดใหญ่) การแจกแจงแบบปกติเกิดขึ้นภายใต้การแปลงที่อธิบายไว้ในคำถาม สิ่งที่น่าสนใจคือใกล้เคียงกับการแจกแจงปกติถึงแม้จะเป็นพารามิเตอร์เบต้า ขนาดเล็ก นั่นสมควรคำอธิบาย

ฉันจะร่างการวิเคราะห์ด้านล่าง เพื่อให้โพสต์นี้มีความยาวที่เหมาะสมมันเกี่ยวข้องกับการโบกมือด้วยมือที่มีการชี้นำหลายอย่าง: ฉันตั้งเป้าที่จะชี้เฉพาะความคิดหลัก ๆ เท่านั้น ให้ฉันสรุปผลลัพธ์ที่นี่:

  1. เมื่อใกล้กับβทุกอย่างจะสมมาตร นี่ทำให้การแจกแจงที่ถูกแปลงแล้วดูเป็นปกติαβ

  2. ฟังก์ชั่นในรูปแบบดูค่อนข้างปกติในสถานที่แรกแม้สำหรับค่าเล็ก ๆ ของαและβ(ให้ทั้งเกิน1และอัตราของพวกเขาคือไม่มากเกินไป ใกล้กับ0หรือ1)Φα1(x)(1Φ(x))β1αβ101

  3. Normality ที่ชัดเจนของการแจกแจงแบบเปลี่ยนรูปนั้นเกิดจากความจริงที่ว่าความหนาแน่นของมันประกอบด้วยความหนาแน่นปกติคูณด้วยฟังก์ชันใน (2)

  4. เมื่อและβเพิ่มขึ้นการออกเดินทางจาก Normality สามารถวัดได้ในเทอมที่เหลือในซีรี่ส์ Taylor สำหรับความหนาแน่นของบันทึก คำสั่งของnลดลงตามสัดส่วนของαβnอำนาจของ αและβ ซึ่งหมายความว่าในที่สุดสำหรับขนาดใหญ่พอสมควร αและ β , เงื่อนไขของการใช้พลังงาน n = 3หรือสูงกว่าได้กลายเป็นที่ค่อนข้างเล็กเหลือเพียงกำลังสอง: ที่แม่นยำความหนาแน่นเข้าสู่ระบบของการกระจายปกติ(n2)/2αβαβn=3

เรียกรวมกันว่าพฤติกรรมเหล่านี้เป็นอย่างดีอธิบายว่าทำไมแม้สำหรับขนาดเล็กและเบต้า quantiles ที่ไม่รุนแรงของ IID ปกติตัวอย่างดูประมาณปกติαβ


การวิเคราะห์

เพราะมันจะมีประโยชน์ที่จะพูดคุยให้เป็นใด ๆฟังก์ชั่นการกระจายถึงแม้ว่าเรามีในใจF = ΦFF=Φ

ฟังก์ชันความหนาแน่นของตัวแปรBeta ( α , β )คือโดยนิยามตามสัดส่วนg(y)(α,β)

yα1(1y)β1dy.

ปล่อยให้เป็นความน่าจะเป็นการแปลงอินทิกรัลของxและการเขียนfสำหรับอนุพันธ์ของF , มันจะเกิดขึ้นทันทีที่xมีความหนาแน่นตามสัดส่วนy=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

เพราะนี่คือการแปลงแบบโมโนโทนิของการกระจายแบบแรงเดียว (เบต้า) ยกเว้นว่าค่อนข้างแปลกการกระจายแบบเปลี่ยนรูปจะเป็นแบบ unimodal เช่นกัน เพื่อศึกษาว่ามันใกล้เคียงกับ Normal มากแค่ไหนลองตรวจสอบลอการิทึมของความหนาแน่นF

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

โดยที่คือค่าคงที่ที่ไม่เกี่ยวข้องของการทำให้เป็นมาตรฐานC

ขยายส่วนประกอบของในซีรี่ส์ Taylor เพื่อสั่งสามค่า x 0 (ซึ่งจะอยู่ใกล้กับโหมด) ตัวอย่างเช่นเราอาจเขียนส่วนขยายของบันทึกFเป็นlogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

สำหรับบางด้วย| h | | x -h. ใช้สัญกรณ์คล้ายกันสำหรับการเข้าสู่ระบบ( 1 - F )และเข้าสู่ระบบ|h||xx0|log(1F)logf

เงื่อนไขเชิงเส้น

คำเชิงเส้นในจะกลายเป็น(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

เมื่อเป็นโหมดของG (x0การแสดงออกนี้เป็นศูนย์ โปรดทราบว่าเนื่องจากสัมประสิทธิ์เป็นฟังก์ชันต่อเนื่องของ x 0เนื่องจาก αและ βมีการเปลี่ยนแปลงโหมด x 0จะแตกต่างกันอย่างต่อเนื่องเช่นกัน นอกจากนี้เมื่อ αและ βมีขนาดใหญ่พอที่ 1ระยะกลายเป็นค่อนข้างเล็กน้อย ถ้าเราตั้งเป้าหมายที่จะศึกษาขีด จำกัด เป็น α และ β ซึ่ง α : βอยู่ในสัดส่วนคงที่ γG(;α,β)x0αβx0αβc1fαβ α:βγเราอาจดังนั้นทันทีและสำหรับทั้งหมดเลือกจุดฐานที่x0

γc1F+c11F=0.

กรณีที่ดีคือที่ที่α = βตลอดและFสมมาตรเกี่ยวกับ0 ในกรณีที่ว่าก็เป็นที่ชัดเจนx 0 = F ( 0 ) = 1 / 2γ=1α=βF0x0=F(0)=1/2

เราประสบความสำเร็จในวิธีการโดย (a) ในขีด จำกัด คำสั่งที่หนึ่งในชุดเทย์เลอร์หายตัวไปและ (b) ในกรณีพิเศษที่เพิ่งอธิบาย

เงื่อนไขกำลังสอง

เหล่านี้คือผลรวม

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Comparing to a Normal distribution, whose quadratic term is (1/2)(xx0)2/σ2, we may estimate that 1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (xx0)n in the Taylor expansion by (1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.


2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).

1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.