สิ่งที่สามารถสรุปเกี่ยวกับข้อมูลเมื่อค่าเฉลี่ยเลขคณิตใกล้กับค่าเฉลี่ยทางเรขาคณิต


24

มีอะไรที่สำคัญเกี่ยวกับค่าเฉลี่ยทางเรขาคณิตและเลขคณิตหมายความว่าอยู่ใกล้กันมากพูด ~ 0.1%? การคาดเดาอะไรที่สามารถทำได้เกี่ยวกับชุดข้อมูลดังกล่าว?

ฉันทำงานวิเคราะห์ชุดข้อมูลและสังเกตว่าค่าใกล้เคียงอย่างยิ่ง ไม่แน่นอน แต่ปิด นอกจากนี้การตรวจสติอย่างรวดเร็วของความไม่เท่าเทียมของค่าเฉลี่ยเรขาคณิตและการตรวจสอบการเก็บข้อมูลพบว่าไม่มีอะไรที่น่าประหลาดใจเกี่ยวกับความสมบูรณ์ของชุดข้อมูลของฉันในแง่ของวิธีที่ฉันคิดค่า


6
บันทึกย่อขนาดเล็ก: ก่อนอื่นให้ตรวจสอบข้อมูลของคุณว่ามีผลดี จำนวนค่าลบอาจทำให้คุณมีผลิตภัณฑ์ที่เป็นบวกและบางแพคเกจอาจไม่ติดธงปัญหาที่อาจเกิดขึ้น (ความไม่เท่าเทียมกันของ AM-GM ขึ้นอยู่กับค่าที่เป็นบวกทั้งหมด) ดูตัวอย่าง (ใน R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (ในขณะที่ค่าเฉลี่ยเลขคณิตคือ 1)
Glen_b -Reinstate Monica

1
ในการอธิบายอย่างละเอียดเกี่ยวกับจุดของ @ Glen_b ชุดข้อมูล{x,0,x}จะมีค่าเลขคณิตและค่าเฉลี่ยทางเรขาคณิตเท่ากับเสมอนั่นคือศูนย์ อย่างไรก็ตามเราสามารถกระจายค่าทั้งสามไปไกลเท่าที่เราต้องการ
hardmath

ทั้งเลขคณิตและรูปทรงเรขาคณิตมีสูตรทั่วไปที่เหมือนกันโดยมีp=1ให้อดีตและp0ให้หลัง จากนั้นจะชัดเจนโดยสังหรณ์ว่าทั้งสองจะเข้ามาใกล้กันมากขึ้นเมื่อค่าข้อมูลxมีค่าเท่ากันทุกค่าเข้าใกล้ค่าคงที่
ttnphns

คำตอบ:


29

ค่าเฉลี่ยเลขคณิตนั้นเกี่ยวข้องกับค่าเฉลี่ยเรขาคณิตผ่านความไม่เท่าเทียมกันทางคณิตศาสตร์ - ค่าเฉลี่ย - เรขาคณิต - ค่าเฉลี่ย (AMGM) ซึ่งระบุว่า:

x1+x2++xnnx1x2xnn,

ที่เท่าเทียมกันคือความสำเร็จ IFF n ดังนั้นจุดข้อมูลของคุณอาจอยู่ใกล้กันมากx1=x2==xn


4
ถูกต้องแล้ว โดยทั่วไปแล้วความแปรปรวนของค่าที่น้อยลงหมายถึงทั้งสองวิธี
Michael M

16
ความแปรปรวนจะต้องมีขนาดเล็กโดยเปรียบเทียบกับขนาดของการสังเกต ดังนั้นมันคือสัมประสิทธิ์ของการแปรปรวน, , ที่จะต้องมีขนาดเล็กσ/μ
Michael Hardy

1
AMGM ยึดมั่นในสิ่งใด? ถ้าเป็นเช่นนั้นมันจะเป็นการดีที่จะสะกดมันออกมา
Richard Hardy

@RichardHardy: AMGM หมายถึง 'ค่าเฉลี่ยเลขคณิต - ค่าเฉลี่ยทางเรขาคณิต'

1
@ user1108 ขอบคุณจริงฉันได้รับหลังจากอ่านโพสต์อื่น ๆ ฉันแค่คิดว่ามันจะสะกดออกมาในคำตอบ (ไม่เพียง แต่ในความคิดเห็น)
Richard Hardy

15

การอธิบายคำตอบของ @Alex R วิธีหนึ่งที่จะเห็นความไม่เท่าเทียมกันของ AMGM นั้นเป็นผลที่ไม่เท่าเทียมของ Jensen โดยความไม่เท่าเทียมของเซ่น : จากนั้นใช้เลขชี้กำลังของทั้งสองด้าน: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

ด้านขวามือเป็นค่าเฉลี่ยเรขาคณิตตั้งแต่(x1x2xn)1/n=exp(1nilogxi)

ความไม่เสมอภาคของ AMGM จะมีความเสมอภาคใกล้เคียงเมื่อใด เมื่อเอฟเฟ็กต์ความไม่เท่าเทียมของเซ่นมีขนาดเล็ก สิ่งที่ทำให้เกิดความไม่เท่าเทียมของเซ่นที่นี่คือความเว้าความโค้งของลอการิทึม หากข้อมูลของคุณกระจายไปทั่วบริเวณที่ลอการิทึมมีความโค้งผลจะใหญ่ หากข้อมูลของคุณกระจายไปทั่วภูมิภาคที่ลอการิทึมเลียนแบบโดยทั่วไปแล้วเอฟเฟกต์จะเล็ก

ตัวอย่างเช่นหากข้อมูลมีความแปรปรวนเล็กน้อยถูกรวมเข้าด้วยกันในย่านเล็ก ๆ ที่เพียงพอลอการิทึมจะดูเหมือนฟังก์ชันเลียนแบบในพื้นที่นั้น มันจะมีลักษณะเหมือนเส้น) สำหรับข้อมูลที่อยู่ใกล้กันอย่างเพียงพอค่าเฉลี่ยเลขคณิตของข้อมูลจะใกล้เคียงกับค่าเฉลี่ยทางเรขาคณิต


12

Let's investigate the range of x1x2xn given that their arithmetic mean (AM) is a small multiple 1+δ of their geometric mean (GM) (with δ0). In the question, δ0.001 but we don't know n.

Since the ratio of these means does not change when the units of measurement are changed, pick a unit for which the GM is 1. Thus, we seek to maximize xn subject to the constraint that x1+x2++xn=n(1+δ) and x1x2xn=1.

x1=x2==xn1=xxn=zx. Thus

n(1+δ)=x1++xn=(n1)x+z

and

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.