ค่าสูงสุดของสัมประสิทธิ์การแปรผันสำหรับชุดข้อมูลที่มีขอบเขต


17

ในการอภิปรายทำตามคำถามล่าสุดเกี่ยวกับว่าส่วนเบี่ยงเบนมาตรฐานสามารถสูงกว่าค่าเฉลี่ยได้หรือไม่คำถามหนึ่งถูกยกให้สั้น ๆ แต่ไม่เคยตอบอย่างสมบูรณ์ ดังนั้นฉันถามมันที่นี่

พิจารณาชุดของnตัวเลขไม่ติดลบ xiที่0xicสำหรับ1in n ไม่จำเป็นต้องให้xiแตกต่างนั่นคือเซตอาจเป็นหลายเซ็ต ค่าเฉลี่ยและความแปรปรวนของชุดถูกกำหนดเป็น

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
และค่าเบี่ยงเบนมาตรฐานคือσxx โปรดทราบว่าชุดของตัวเลขไม่ใช่ตัวอย่างจากประชากรและเราไม่ได้ประมาณค่าเฉลี่ยประชากรหรือความแปรปรวนของประชากร คำถามคือ:

ค่าสูงสุดของσ xคืออะไรσxx¯สัมประสิทธิ์ของการเปลี่ยนแปลงมากกว่าตัวเลือกทั้งหมดของxi's ในช่วง[0,c]?

ค่าสูงสุดที่ฉันสามารถหาได้สำหรับσxx¯คือn1 ซึ่งทำได้เมื่อn1ของxiมีค่า0และส่วนที่เหลือ (นอก)xi มีค่าc, ให้ แต่นี่ไม่ได้ขึ้นอยู่กับcเลยและฉันสงสัยว่าถ้าค่าที่มากขึ้นอาจขึ้นอยู่กับทั้งnและcสามารถทำได้

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

ความคิดใด ๆ ฉันแน่ใจว่าคำถามนี้ได้รับการศึกษาในวรรณคดีทางสถิติมาก่อนและดังนั้นการอ้างอิงถ้าไม่ได้ผลลัพธ์ที่แท้จริงจะได้รับการชื่นชมมาก


ฉันคิดว่าคุณพูดถูกว่าเป็นสิ่งที่มีค่าที่สุดเท่าที่จะเป็นไปได้และฉันก็ประหลาดใจที่ไม่สำคัญ เย็น. c
Peter Flom - Reinstate Monica

7
ไม่ควรส่งผลกระทบต่อผลลัพธ์เช่น σ xcไม่เปลี่ยนแปลงถ้าค่าทั้งหมดจะถูกคูณด้วยค่าคงที่ใด ๆ ในเชิงบวกk σxx¯k
เฮนรี่

คำตอบ:


15

รูปทรงเรขาคณิตให้ความเข้าใจที่ลึกซึ้งและความไม่เท่าเทียมแบบคลาสสิกที่เข้าถึงได้ง่าย

วิธีการแก้ปัญหาทางเรขาคณิต

เรารู้จากรูปทรงเรขาคณิตของสี่เหลี่ยมจัตุรัสน้อยที่สุดนั่นเป็นการประมาณการมุมฉากของเวกเตอร์ของข้อมูลx = ( x 1 , x 2 , , x nx¯=(x¯,x¯,,x¯)บน สเปซย่อยเชิงเส้นที่สร้างโดยเวกเตอร์คงที่ ( 1 , 1 , , 1 )และ σ xx=(x1,x2,,xn)(1,1,,1)σxเป็นสัดส่วนโดยตรงกับ (แบบยุคลิด) ระยะห่างระหว่างและˉ x ข้อ จำกัด ที่ไม่ใช่การปฏิเสธคือเส้นตรงและระยะทางเป็นฟังก์ชันนูนดังนั้นระยะทางไกลสุดขั้วต้องบรรลุที่ขอบของกรวยที่กำหนดโดยข้อ จำกัด กรวยนี้เป็น orthant ในเชิงบวกในR nและขอบที่มีพิกัดแกนไหนได้ทันทีตามที่ทุกคน แต่หนึ่งในx ฉันต้องเป็นศูนย์ที่ระยะทางสูงสุด สำหรับชุดข้อมูลดังกล่าวการคำนวณโดยตรง (ง่าย) จะแสดงσ x / ˉ x = xx¯.Rnxiσx/x¯=n.

โซลูชันที่ใช้ประโยชน์จากความไม่เท่าเทียมแบบดั้งเดิม

σx/x¯ถูกปรับให้เหมาะสมพร้อมกันกับการแปลงแบบโมโนโทนิกใด ๆ เมื่อพิจารณาถึงสิ่งนี้

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(The formula for f may look mysterious until you realize it just records the steps one would take in algebraically manipulating σx/x¯ to get it into a simple looking form, which is the left hand side.)

An easy way begins with Holder's Inequality,

x12+x22++xn2(x1+x2++xn)max({xi}).

(This needs no special proof in this simple context: merely replace one factor of each term xi2=xi×xi by the maximum component max({xi}): obviously the sum of squares will not decrease. Factoring out the common term max({xi}) yields the right hand side of the inequality.)

xi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Because the denominator cannot be less than the numerator (which itself is just one of the terms in the denominator), the right hand side is dominated by the value 1, which is achieved only when all but one of the xi equal 0. Whence

σxx¯f1(1)=(1×(n1))nn1=n.

Alternative approach

Because the xi are nonnegative and cannot sum to 0, the values p(i)=xi/(x1+x2++xn) determine a probability distribution F on {1,2,,n}. Writing s for the sum of the xi, we recognize

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

The axiomatic fact that no probability can exceed 1 implies this expectation cannot exceed 1, either, but it's easy to make it equal to 1 by setting all but one of the pi equal to 0 and therefore exactly one of the xi is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.


Thanks for a detailed answer from which I have learned a lot! I assume that the difference between the n in your answer and the n1 that I obtained (and Henry confirmed) is due to the fact that you are using
σx=1n1i=1n(xix¯)2
as the definition of σx while I used
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined σx (which I intended to do but forgot).
whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all xi0, then the coefficient of variation cannot exceed n1. This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.


8

With two numbers xixj, some δ>0 and any μ:

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Applying this to n non-negative datapoints, this means that unless all but one of the n numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n1.

c should not affect the result as σxx¯ does not change if all the values are multiplied by any positive constant k (as I said in my comment).

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.