Что можно сделать вывод о данных, когда среднее арифметическое очень близко к среднему геометрическому?


24

Есть ли что-то существенное в среднем геометрическом и среднем арифметическом значении, которое находится очень близко друг к другу, скажем, ~ 0,1%? Какие предположения можно сделать о таком наборе данных?

Я работал над анализом набора данных и заметил, что по иронии судьбы значения очень и очень близки. Не точно, но близко. Кроме того, быстрая проверка правильности среднего арифметического среднего геометрического неравенства, а также обзор сбора данных показывают, что нет ничего подозрительного в целостности моего набора данных с точки зрения того, как я пришел к значениям.


6
Небольшое примечание: сначала проверьте, все ли ваши данные положительны; четное число отрицательных значений может оставить вас с положительным продуктом, а некоторые пакеты могут не помечать потенциальную проблему (неравенство AM-GM основывается на положительных значениях). Смотрите, например (в R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (в то время как среднее арифметическое равно 1)
Glen_b

1
Чтобы уточнить точку @ Glen_b, набор данных {x,0,x} всегда имеет одинаковое арифметическое и геометрическое среднее, а именно ноль. Однако мы можем распределить три значения настолько далеко друг от друга, насколько пожелаем.
hardmath

Как арифметическое, так и геометрическое среднее имеют одинаковую обобщенную формулу , где дает первое, а p 0 - второе. Затем становится интуитивно понятно, что эти два становятся ближе и ближе друг к другу, когда значения данных x становятся все более и более равными, приближаясь к константе. p=1p0x
ttnphns

Ответы:


29

Среднее арифметическое связано с геометрическим средним через неравенство Среднее арифметическое-среднее-геометрическое (AMGM), которое гласит:

x1+x2++xnnx1x2xnn,

где равенство достигается тогда и только тогда, когда . Так что, вероятно, ваши точки данных все очень близки друг к другу.x1=x2==xn


4
Это правильно. Как правило, чем меньше дисперсия значений, тем ближе два средних.
Майкл М

16
Дисперсия должна быть небольшой СРАВНЕНИЕМ с размерами наблюдений. Таким образом, коэффициент вариации должен быть небольшим.σ/μ
Майкл Харди

1
AMGM означает что-нибудь? Если это так, было бы хорошо, чтобы это было прописано.
Ричард Харди

@RichardHardy: AMGM означает «среднее арифметическое - среднее геометрическое»

1
@ user1108, спасибо, вообще-то, понял после прочтения других постов. Я просто думаю, что это может быть прописано в ответе (не только в комментариях).
Ричард Харди

15

Рассматривая ответ @Alex R, один из способов увидеть неравенство AMGM - это эффект неравенства Дженсена. По неравенству Дженсена : Тогда возьмите экспоненту обеих сторон: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Правая часть представляет собой среднее геометрическое, поскольку (x1x2xn)1/n=exp(1nilogxi)

Когда неравенство AMGM выполняется с почти равенством? Когда эффект неравенства Дженсена невелик. В основе эффекта неравенства Дженсена лежит вогнутость, кривизна логарифма. Если ваши данные распределены по области, где логарифм имеет кривизну, эффект будет большим. Если ваши данные распределены по региону, где логарифм в основном аффинный, то эффект будет небольшим.

Например, если данные имеют небольшое отклонение, сгруппированы вместе в достаточно малой окрестности, то логарифм будет выглядеть как аффинная функция в этой области (тема исчисления заключается в том, что если вы достаточно увеличите масштаб для гладкой, непрерывной функции, то это будет выглядеть как линия). Для данных, достаточно близких друг к другу, среднее арифметическое данных будет близко к среднему геометрическому.


12

Давайте исследуем диапазон учитывая, что их среднее арифметическое (AM) является кратным 1 + δ их среднего геометрического (GM) (с δ 0 ). В вопросе δ 0,001, но мы не знаем n .x1x2xn1+δδ0δ0.001n

Поскольку соотношение этих средств не меняется при изменении единиц измерения, выберите единицу, для которой GM равен . Таким образом, мы стремимся максимизировать x n с учетом ограничения, что x 1 + x 2 + + x n = n ( 1 + δ ) и x 1x 2x n = 1 .1xnx1+x2++xn=n(1+δ)x1x2xn=1

Это будет сделано, сделав , скажем, и x n = z x . таким образомx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

а также

1=x1x2xn=xn1z.

x01

(1n)xn+n(1+δ)xn11.

xzδn=6,20,50,150

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

Я попробовал то, что мне кажется твоим Z1+δ+2δКзнак равно1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.