ค่าเฉลี่ยเดียวกัน, ความแปรปรวนต่างกัน


14

สมมติว่าคุณมีนักวิ่งแปดคนวิ่งแข่ง การกระจายตัวของเวลาทำงานส่วนตัวของพวกเขาคือปกติและแต่ละช่วงเวลามีความยาว11วินาที ค่าเบี่ยงเบนมาตรฐานของรองชนะเลิศอันดับหนึ่งคือค่าที่เล็กที่สุดสองค่าที่สองที่เล็กที่สุดค่าที่สามน้อยที่สุดและแปดค่าที่ใหญ่ที่สุด คำถามสองข้อทำให้ฉันสับสน: (1) ความน่าจะเป็นที่ผู้ชนะคนสุดท้ายคืออะไรและ (2) ใครที่มีแนวโน้มจะชนะการแข่งขันมากที่สุด?

คำตอบของฉันมี1/2และ8ตามลำดับ เนื่องจากพวกเขาแบ่งปันค่าเฉลี่ยเท่ากันน่าจะเป็นที่x¯1x¯8<0เป็นเพียง1/2ไม่? ฉันจะแสดงให้เห็นถึงส่วนที่สองอย่างจริงจังและสามารถคำนวณความน่าจะเป็นที่แน่นอนได้อย่างไร ขอบคุณล่วงหน้า.


1
@Silverfish ในการเปรียบเทียบครั้งแรก (จำลองเป็นตัวแปรสุ่ม ) ไปที่ผ่านมา ( X nสันนิษฐานว่าเป็นอิสระจากX 1 ) เราจะต้องพิจารณาZ = X 1 - X n นี่คือการกระจายอย่างต่อเนื่องแบบสมมาตรโดยมีค่าเฉลี่ยเป็นศูนย์ โอกาสที่เต้นครั้งแรกสุดท้ายคือโอกาสที่Z < 0ซึ่ง (โดยสมมาตรและความต่อเนื่อง) เท่ากับ1 / 2อ้างว่าเป็น แม้ว่าสุดท้ายจะมีโอกาสชนะการแข่งขันมากขึ้น แต่ก็ไม่มีข้อขัดแย้ง: ส่วนใหญ่แล้วการเต้นครั้งแรกจะเป็นครั้งสุดท้าย แต่คนอื่นจะชนะการแข่งขันX1XnX1Z=X1XnZ<01/2
whuber

1
@whuber ขอบคุณฉันจัดการเพื่อ garble สิ่งที่ฉันหมาย - จะลบเพื่อป้องกันความสับสน ตัวเลข 1/2 นั้นถูกต้อง แต่คำตอบเพื่อเปรียบเทียบเวลาเฉลี่ยของพวกเขาไม่ถูกต้องและดูเหมือนว่าจะเชิญชวนให้สับสนกับค่าเฉลี่ยของประชากร ในขณะที่คุณเขียนมันควรจะเป็นความแตกต่างในการXฉัน xi¯Xi
Silverfish

@Silver นี่เป็นการเน้นย้ำถึงอันตรายของการสมมติว่าเรารู้อยู่เสมอว่าความหมายของใครบางคนหมายถึงอะไรเพราะมันดูคุ้นเคย ฉันแก้ไขปัญหานั้น (โดยมีการขีดเส้นใต้ปรากฏใน " " และ " x 8 ") เพราะความหมายที่ตั้งใจนั้นชัดเจนเพียงพอและบอกเป็นนัยว่าทั้งคู่ไม่สามารถเป็นตัวแทนค่าเฉลี่ยของอะไรก็ได้: ในบริบทนี้พวกเขาต้องยืนหยัดเพื่อ ตัวแปรสุ่มเอง (ซึ่งฉันเขียนX 1และX n ) x1x8X1Xn
whuber

คำตอบ:


15

แม้ว่าจะไม่สามารถคำนวณความน่าจะเป็นที่แน่นอนได้ (ยกเว้นในกรณีพิเศษที่มี ) แต่สามารถคำนวณได้อย่างรวดเร็วถึงความแม่นยำสูง แม้จะมีข้อ จำกัด นี้ก็สามารถพิสูจน์ได้อย่างจริงจังว่านักวิ่งที่มีค่าเบี่ยงเบนมาตรฐานมากที่สุดมีโอกาสชนะมากที่สุด ตัวเลขแสดงให้เห็นถึงสถานการณ์และแสดงให้เห็นว่าทำไมผลลัพธ์นี้ชัดเจนโดยสังหรณ์ใจ:n2

Figure

ความหนาแน่นของความน่าจะเป็นของช่วงเวลาที่นักวิ่งห้าคนแสดงให้เห็น ทั้งหมดอยู่อย่างต่อเนื่องและสมมาตรเกี่ยวกับค่าเฉลี่ยทั่วไปμ(ความหนาแน่นสเกลเบต้าถูกนำมาใช้เพื่อให้แน่ใจว่าทุกครั้งจะเป็นค่าบวก) ความหนาแน่นหนึ่งที่วาดด้วยสีน้ำเงินเข้มมีการแพร่กระจายที่มากขึ้น ส่วนที่มองเห็นได้ในหางซ้ายแสดงถึงเวลาที่ไม่มีนักวิ่งคนอื่นสามารถจับคู่ได้ เนื่องจากหางด้านซ้ายซึ่งมีพื้นที่ค่อนข้างใหญ่แสดงถึงความน่าจะเป็นที่ประเมินได้นักวิ่งที่มีความหนาแน่นนี้จึงมีโอกาสมากที่สุดในการชนะการแข่งขัน (พวกเขายังมีโอกาสที่ยิ่งใหญ่ในการเข้ามาล่าสุด!)μ

ผลลัพธ์เหล่านี้ได้รับการพิสูจน์แล้วว่าเป็นมากกว่าการแจกแจงแบบปกติ: วิธีการที่นำเสนอในที่นี้ใช้ได้กับการแจกแจงแบบสมมาตรและต่อเนื่อง (นี่จะเป็นที่สนใจของทุกคนที่คัดค้านการใช้การแจกแจงแบบปกติกับเวลาที่ใช้แบบจำลอง) เมื่อการสันนิษฐานเหล่านี้ถูกละเมิดมันเป็นไปได้ที่นักวิ่งที่มีค่าเบี่ยงเบนมาตรฐานมากที่สุดอาจไม่มีโอกาสชนะมากที่สุด ผู้อ่านที่สนใจ) แต่เรายังสามารถพิสูจน์ได้ภายใต้สมมติฐานที่รุนแรงว่านักวิ่งที่มี SD ที่ดีที่สุดจะมีโอกาสที่ดีที่สุดในการชนะหาก SD นั้นมีขนาดใหญ่พอสมควร

รูปยังแสดงให้เห็นว่าผลลัพธ์เดียวกันสามารถทำได้โดยการพิจารณา analogs ด้านเดียวของส่วนเบี่ยงเบนมาตรฐาน (ที่เรียกว่า "semivariance") ซึ่งวัดการกระจายตัวของการกระจายไปยังด้านเดียวเท่านั้น นักวิ่งที่มีการกระจายไปทางซ้ายอย่างยอดเยี่ยม (ไปทางช่วงเวลาที่ดีกว่า) ควรจะมีโอกาสชนะมากขึ้นโดยไม่คำนึงถึงสิ่งที่เกิดขึ้นในส่วนที่เหลือของการแจกแจง ข้อพิจารณาเหล่านี้ช่วยให้เราเห็นคุณค่าของการเป็นอสังหาริมทรัพย์ที่ดีที่สุด (ในกลุ่ม) แตกต่างจากคุณสมบัติอื่น ๆ เช่นค่าเฉลี่ย


ให้เป็นตัวแปรสุ่มที่แสดงถึงเวลาของนักวิ่ง คำถามที่ถือว่าพวกเขาเป็นอิสระและกระจายตามปกติที่มีค่าเฉลี่ยทั่วไปμ (แม้ว่านี่จะเป็นแบบจำลองที่เป็นไปไม่ได้เพราะมันมีความเป็นไปได้ที่เป็นบวกสำหรับเวลาเชิงลบ แต่มันก็ยังสามารถประมาณความสมเหตุสมผลกับความเป็นจริงได้หากค่าเบี่ยงเบนมาตรฐานมีค่าน้อยกว่าμ )X1,,Xnμμ

เพื่อที่จะดำเนินการตามข้อโต้แย้งดังต่อไปนี้คงไว้ซึ่งการสันนิษฐานของความเป็นอิสระ แต่อย่างอื่นสมมติว่าการแจกแจงของนั้นได้รับจากF iและกฎหมายการกระจายเหล่านี้สามารถเป็นอะไรก็ได้ เพื่ออำนวยความสะดวกนอกจากนี้ยังถือว่าการกระจายF nอย่างต่อเนื่องที่มีความหนาแน่น n ในภายหลังตามความจำเป็นเราอาจใช้สมมติฐานเพิ่มเติมหากพวกเขารวมถึงกรณีของการแจกแจงแบบปกติXiFiFnfn

For any y and infinitesimal dy, the chance that the last runner has a time in the interval (ydy,y] and is the fastest runner is obtained by multiplying all relevant probabilities (because all times are independent):

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

Integrating over all these mutually exclusive possibilities yields

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

For Normal distributions, this integral cannot be evaluated in closed form when n>2: it needs numerical evaluation.

Figure

This figure plots the integrand for each of five runners having standard deviations in the ratio 1:2:3:4:5. The larger the SD, the more the function is shifted to the left--and the greater its area becomes. The areas are approximately 8:14:21:26:31%. In particular, the runner with the largest SD has a 31% chance of winning.


Although a closed form cannot be found, we can still draw solid conclusions and prove that the runner with the largest SD is most likely to win. We need to study what happens as the standard deviation of one of the distributions, say Fn, changes. When the random variable Xn is rescaled by σ>0 around its mean, its SD is multiplied by σ and fn(y)dy will change to fn(y/σ)dy/σy=xσnσ

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

Suppose now that the medians of all n distributions are equal and that all the distributions are symmetric and continuous, with densities fi. (This certainly is the case under the conditions of the question, because a Normal median is its mean.) By a simple (locational) change of variable we may assume this common median is 0; the symmetry means fn(y)=fn(y) and 1Fj(y)=Fj(y) for all y. These relationships enable us to combine the integral over (,0] with the integral over (0,) to give

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

The function ϕ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

for i=1,2,,n1.

The assumptions we made about the distributions were designed to assure that Fj(x)1Fj(x) for x0. Thus, since x=yσ0, each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors yfn(y)fi(yσ) are clearly nonnegative because densities cannot be negative and y0. We may conclude that ϕ(σ)0 for σ0, proving that the chance that player n wins increases with the standard deviation of Xn.

This is enough to prove that runner n will win provided the standard deviation of Xn is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the Xi are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to 1/n). Start by setting all distributions to that of runner n. Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that n wins cannot decrease, while the chances of all the other runners have decreased. Consequently, n has the greatest chances of winning, QED.


@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of λ, say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by 1/λ, thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.
whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.
Phonon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.