Что можно сделать вывод о данных, когда среднее арифметическое очень близко к среднему геометрическому?

Есть ли что-то существенное в среднем геометрическом и среднем арифметическом значении, которое находится очень близко друг к другу, скажем, ~ 0,1%? Какие предположения можно сделать о таком наборе данных?

Я работал над анализом набора данных и заметил, что по иронии судьбы значения очень и очень близки. Не точно, но близко. Кроме того, быстрая проверка правильности среднего арифметического среднего геометрического неравенства, а также обзор сбора данных показывают, что нет ничего подозрительного в целостности моего набора данных с точки зрения того, как я пришел к значениям.

descriptive-statistics mean geometric-mean

— user12289
источник

Небольшое примечание: сначала проверьте, все ли ваши данные положительны; четное число отрицательных значений может оставить вас с положительным продуктом, а некоторые пакеты могут не помечать потенциальную проблему (неравенство AM-GM основывается на положительных значениях). Смотрите, например (в R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x))

$\:\quad$ [1] 3.383363 (в то время как среднее арифметическое равно 1)

— Glen_b

Чтобы уточнить точку @ Glen_b, набор данных

{- x, 0, x}

$\{-x,0,x\}$ всегда имеет одинаковое арифметическое и геометрическое среднее, а именно ноль. Однако мы можем распределить три значения настолько далеко друг от друга, насколько пожелаем.

— hardmath

Как арифметическое, так и геометрическое среднее имеют одинаковую обобщенную формулу , где

дает первое, а

- второе. Затем становится интуитивно понятно, что эти два становятся ближе и ближе друг к другу, когда значения данных

становятся все более и более равными, приближаясь к константе.

p = 1

$p=1$

p \to 0

$p \rightarrow 0$

x

$x$

— ttnphns

Ответы:

Среднее арифметическое связано с геометрическим средним через неравенство Среднее арифметическое-среднее-геометрическое (AMGM), которое гласит:

\frac{x_{1} + x_{2} + \dots + x_{n}}{n} \geq \sqrt[n]{x_{1} x_{2} \dots x_{n}},

$\frac{x_1+x_2+\cdots+x_n} n \geq \sqrt[n]{x_1 x_2\cdots x_n},$

где равенство достигается тогда и только тогда, когда . Так что, вероятно, ваши точки данных все очень близки друг к другу. $x_1=x_2=\cdots=x_n$

— Алекс Р.
источник

Это правильно. Как правило, чем меньше дисперсия значений, тем ближе два средних.

— Майкл М

Дисперсия должна быть небольшой СРАВНЕНИЕМ с размерами наблюдений. Таким образом, коэффициент вариации

должен быть небольшим.

σ / μ

$\sigma/\mu$

$\qquad$

— Майкл Харди

AMGM означает что-нибудь? Если это так, было бы хорошо, чтобы это было прописано.

— Ричард Харди

@RichardHardy: AMGM означает «среднее арифметическое - среднее геометрическое»

@ user1108, спасибо, вообще-то, понял после прочтения других постов. Я просто думаю, что это может быть прописано в ответе (не только в комментариях).

— Ричард Харди

Рассматривая ответ @Alex R, один из способов увидеть неравенство AMGM - это эффект неравенства Дженсена. По неравенству Дженсена : Тогда возьмите экспоненту обеих сторон:

\log (\frac{1}{n} \sum_{i} x_{i}) \geq \frac{1}{n} \sum_{i} \log x_{i}

$\log\left( \frac{1}{n} \sum_i x_i \right) \geq \frac{1}{n} \sum_i \log x_i$

\frac{1}{n} \sum_{i} x_{i} \geq \exp (\frac{1}{n} \sum_{i} \log x_{i})

$\frac{1}{n} \sum_i x_i \geq \exp\left( \frac{1}{n} \sum_i \log x_i \right)$

Правая часть представляет собой среднее геометрическое, поскольку $\left(x_1 \cdot x_2 \cdot \ldots \cdot x_n \right)^{1/n} = \exp\left(\frac{1}{n} \sum_i \log x_i \right)$

Когда неравенство AMGM выполняется с почти равенством? Когда эффект неравенства Дженсена невелик. В основе эффекта неравенства Дженсена лежит вогнутость, кривизна логарифма. Если ваши данные распределены по области, где логарифм имеет кривизну, эффект будет большим. Если ваши данные распределены по региону, где логарифм в основном аффинный, то эффект будет небольшим.

Например, если данные имеют небольшое отклонение, сгруппированы вместе в достаточно малой окрестности, то логарифм будет выглядеть как аффинная функция в этой области (тема исчисления заключается в том, что если вы достаточно увеличите масштаб для гладкой, непрерывной функции, то это будет выглядеть как линия). Для данных, достаточно близких друг к другу, среднее арифметическое данных будет близко к среднему геометрическому.

— Мэтью Ганн
источник

Давайте исследуем диапазон учитывая, что их среднее арифметическое (AM) является кратным их среднего геометрического (GM) (с ). В вопросе но мы не знаем . $x_1\le x_2 \le \cdots \le x_n$ $1+\delta$ $\delta \ge 0$ $\delta\approx 0.001$ $n$

Поскольку соотношение этих средств не меняется при изменении единиц измерения, выберите единицу, для которой GM равен . Таким образом, мы стремимся максимизировать учетом ограничения, что и . $1$ $x_n$ $x_1+x_2+\cdots+x_n = n(1+\delta)$ $x_1\cdot x_2\cdots x_n = 1$

Это будет сделано, сделав , скажем, и . таким образом $x_1=x_2=\cdots=x_{n-1}=x$ $x_n=z \ge x$

n (1 + δ) = x_{1} + \dots + x_{n} = (n - 1) x + z

$n(1+\delta) = x_1 + \cdots + x_n = (n-1)x + z$

а также

1 = x_{1} \cdot x_{2} \dots x_{n} = x^{n - 1} z .

$1 = x_1\cdot x_2 \cdots x_n = x^{n-1}z.$

$x$ $0$ $1$

(1 - n) x^{n} + n (1 + δ) x^{n - 1} - 1.

$(1-n)x^n + n(1+\delta)x^{n-1} - 1.$

$x$ $z$ $\delta$ $n=6, 20, 50, 150$

As soon as $n$ reaches any appreciable size, even a tiny ratio of $1.001$ is consistent with one large outlying $x_n$ (the upper red curves) and a group of tightly clustered $x_i$ (the lower blue curves).

At the other extreme, suppose $n=2k$ is even (for simplicity). The minimum range is achieved when half the $x_i$ equal one value $x \le 1$ and the other half equal another value $z \ge 1$ . Now the solution (which is easily checked) is

x^{k} = 1 + δ \pm \sqrt{δ^{2} + 2 δ} .

$x^k = 1+\delta \pm \sqrt{\delta^2 + 2\delta}.$

For tiny $\delta$ , we may ignore the $\delta^2$ as an approximation and also approximate the $k^\text{th}$ root to first order, giving

x \approx 1 + \frac{δ - \sqrt{2 δ}}{k}; z \approx 1 + \frac{δ + \sqrt{2 δ}}{k} .

$x \approx 1 + \frac{\delta-\sqrt{2\delta}}{k};\ z \approx 1 + \frac{\delta+\sqrt{2\delta}}{k}.$

The range is approximately $\sqrt{32\delta}/n$ .

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data $n$ . The upper bound shows the range can be appreciable even for tiny $\delta$ , thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the $x_i$ might be in terms of any other measure of spread, such as their variance or coefficient of variation.

— whuber
источник

On the right of your right hand graph you seem to have

n = 150, δ = 0.002, x \approx 0.9954, z \approx 1.983, k = 75

$n=150, \delta=0.002, x\approx 0.9954, z \approx 1.983, k=75$ . I do not see how these values are near your stated formulae approximations which seem to give

x \approx 0.99918, z \approx 1.00087

$x \approx 0.99918, z\approx 1.00087$ . Perhaps I have misunderstood

— Henry

@Henry I don't know how you came up with those numbers. When

n = 150

$n=150$ , the requirements are that

x^{149} z = 1

$x^{149} z=1$ and

149 x + z = 150 (1.002) = 150.3

$149x + z=150(1.002)=150.3$ . Neither of those comes close to being true for the values you supply. When you plug in

x = 0.995416

$x=0.995416$ and

z = 1.98308

$z=1.98308$ , you get the correct values.

— whuber

Я попробовал то, что мне кажется твоим

z \approx 1 + \frac{δ + \sqrt{2 δ}}{k} = 1 + \frac{0.002 + \sqrt{2 \times 0.002}}{75} \approx 1.00087

$z \approx 1 + \dfrac{\delta+\sqrt{2\delta}}{k} = 1+\dfrac{0.002+\sqrt{2\times 0.002} }{75} \approx 1.00087$ and similarly for

x

$x$ . But now I see this is answering a different question

— Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your

x

$x$ and

z

$z$ we have

75 x + 75 z \approx 150.3

$75x+75z\approx 150.3$ and

x^{75} z^{75} \approx 1

$x^{75}z^{75}\approx 1$ , as required.

— whuber