Максимальное значение коэффициента вариации для ограниченного набора данных

17

В ходе дискуссии после недавнего вопроса о том, может ли стандартное отклонение превышать среднее значение, один вопрос был поднят кратко, но так и не получил полного ответа. Поэтому я спрашиваю это здесь.

Рассмотрим набор из неотрицательных чисел где для . Не требуется, чтобы был отличным, то есть набор мог быть мультимножеством. Среднее значение и дисперсия набора определяются как и стандартное отклонение . Обратите внимание, что набор чисел не является выборкой из совокупности, и мы не оцениваем среднее значение или дисперсию совокупности. Тогда возникает вопрос: $n$ $x_i$ $0 \leq x_i \leq c$ $1 \leq i \leq n$ $x_i$

\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}, σ_{x}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = (\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - {\bar{x}}^{2}

$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2$

σ_{x}

$\sigma_x$

Каково максимальное значение $\dfrac{\sigma_x}{\bar{x}}$ , коэффициента вариации, для всех вариантов выбора $x_i$ в интервале $[0,c]$ ?

Максимальное значение, которое я могу найти для $\frac{\sigma_x}{\bar{x}}$ равно $\sqrt{n-1}$ которое достигается, когда $n-1$ из $x_i$ имеет значение $0$ а оставшийся (выброс) $x_i$ имеет значение $c$ , давая

\bar{x} = \frac{c}{n}, \frac{1}{n} \sum x_{i}^{2} = \frac{c^{2}}{n} \Rightarrow σ_{x} = \sqrt{\frac{c^{2}}{n} - \frac{c^{2}}{n^{2}}} = \frac{c}{n} \sqrt{n - 1} .

$\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.$ Но это вообще не зависит от

c

$c$ , и мне интересно , можно ли достичь больших значений, возможно, зависящих как от

n

$n$ и от

c

$c$ .

Есть идеи? Я уверен, что этот вопрос изучался ранее в статистической литературе, и поэтому ссылки, если не фактические результаты, будут высоко оценены.

— Дилип Сарватэ
источник

Я думаю, что вы правы в том, что это максимально возможное значение, и я также удивлен, что не имеет значения. Здорово.

c

$c$

— Питер Флом - Восстановить Монику

7

c

$c$ не должен влиять на результат, поскольку не изменяется, если все значения умножены на любую положительную константу .

\frac{σ_{x}}{\bar{x}}

$\frac{\sigma_x}{\bar{x}}$

k

$k$

— Генри

15

Геометрия обеспечивает понимание, а классические неравенства обеспечивают легкий доступ к строгости.

Геометрическое решение

Из геометрии наименьших квадратов мы знаем, что является ортогональной проекцией вектора данных на линейное подпространство, порожденное вектором констант и что прямо пропорционально (евклидову) расстоянию между и Ограничения неотрицательности являются линейными, а расстояние является выпуклой функцией, поэтому крайности расстояния должны быть достигнуты на краях конуса, определяемых ограничениями. Этот конус является положительным ортантом в $\mathbf{\bar{x}} = (\bar{x}, \bar{x}, \ldots, \bar{x})$ $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ $(1,1,\ldots,1)$ $\sigma_x$ $\mathbf{x}$ $\mathbf{\bar{x}}.$ $\mathbb{R}^n$ и его ребра являются осями координат, откуда сразу следует, что все, кроме одного из должны быть равны нулю на максимальных расстояниях. Для такого набора данных прямой (простой) расчет показывает $x_i$ $\sigma_x/\bar{x}=\sqrt{n}.$

Решение, использующее классические неравенства

$\sigma_x/\bar{x}$ оптимизируется одновременно с любым его монотонным преобразованием. В свете этого давайте максимально

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} = \frac{1}{n} (\frac{n - 1}{n} {(\frac{σ_{x}}{\bar{x}})}^{2} + 1) = f (\frac{σ_{x}}{\bar{x}}) .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} = \frac{1}{n}\left(\frac{n-1}{n}\left(\frac{\sigma_x}{\bar{x}}\right)^2+1\right) = f\left(\frac{\sigma_x}{\bar{x}}\right).$

(Формула для может выглядеть загадочной, пока вы не поймете, что она просто записывает шаги, которые нужно было бы сделать, чтобы алгебраически манипулировать чтобы ее в простую форму, которая находится слева.) $f$ $\sigma_x/\bar{x}$

Легкий путь начинается с неравенства Холдера ,

x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2} \leq (x_{1} + x_{2} + \dots + x_{n}) max ({x_{i}}) .

$x_1^2+x_2^2+\ldots+x_n^2 \le \left(x_1+x_2+\ldots+x_n\right)\max(\{x_i\}).$

(Это не требует специального доказательства в этом простом контексте: просто замените один фактор каждого члена на максимальный компонент : очевидно, сумма квадратов не будет уменьшаться. Факторинг из общего члена получаем правую часть неравенства.) $x_i^2 = x_i \times x_i$ $\max(\{x_i\})$ $\max(\{x_i\})$

Поскольку не являются всеми (что оставило бы неопределенным), деление на квадрат их суммы является действительным и дает эквивалентное неравенство $x_i$ $0$ $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} \leq \frac{max ({x_{i}})}{x_{1} + x_{2} + \dots + x_{n}} .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} \le \frac{\max(\{x_i\})}{x_1+x_2+\ldots+x_n}.$

Поскольку знаменатель не может быть меньше числителя (который сам по себе является лишь одним из терминов в знаменателе), в правой части преобладает значение , которое достигается только тогда, когда все, кроме одного из равны . Откуда $1$ $x_i$ $0$

\frac{σ_{x}}{\bar{x}} \leq f^{- 1} (1) = \sqrt{(1 \times (n - 1)) \frac{n}{n - 1}} = \sqrt{n} .

$\frac{\sigma_x}{\bar{x}} \le f^{-1}\left(1\right) = \sqrt{\left(1 \times (n - 1)\right)\frac{n}{n-1}}=\sqrt{n}.$

Альтернативный подход

Поскольку неотрицательны и не могут суммироваться до , значения определяют распределение вероятности на . Записывая для суммы , мы распознаем $x_i$ $0$ $p(i) = x_i/(x_1+x_2+\ldots+x_n)$ $F$ $\{1,2,\ldots,n\}$ $s$ $x_i$

\begin{aligned} \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} & = \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{s^{2}} \\ = (\frac{x_{1}}{s}) (\frac{x_{1}}{s}) + (\frac{x_{2}}{s}) (\frac{x_{2}}{s}) + \dots + (\frac{x_{n}}{s}) (\frac{x_{n}}{s}) \\ = p_{1} p_{1} + p_{2} p_{2} + \dots + p_{n} p_{n} \\ = E_{F} [p] . \end{aligned}

$\eqalign{ \frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} &= \frac{x_1^2+x_2^2+\ldots+x_n^2}{s^2} \\ &= \left(\frac{x_1}{s}\right)\left(\frac{x_1}{s}\right)+\left(\frac{x_2}{s}\right)\left(\frac{x_2}{s}\right) + \ldots + \left(\frac{x_n}{s}\right)\left(\frac{x_n}{s}\right)\\ &= p_1 p_1 + p_2 p_2 + \ldots + p_n p_n\\ &= \mathbb{E}_F[p]. }$

Аксиоматический факт, что никакая вероятность не может превышать подразумевает, что это ожидание также не может превышать , но легко сделать его равным , установив все, кроме одного, из равным и, следовательно, ровно один из отличен от нуля. Вычислите коэффициент вариации, как в последней строке геометрического решения выше. $1$ $1$ $1$ $p_i$ $0$ $x_i$

— Whuber
источник

Спасибо за подробный ответ, из которого я многому научился! Я предполагаю, что разница между в вашем ответе и которую я получил (и Генри подтвердил), связана с тем, что вы используете как определение пока я использовал

\sqrt{n}

$\sqrt{n}$

\sqrt{n - 1}

$\sqrt{n-1}$

σ_{x} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\sigma_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$

σ_{x}

$\sigma_x$

σ_{x} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} ?

$\sigma_x = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}?$

— Дилип Сарватэ

1

Да, Дилип, все верно. Извините за несоответствие с вопросом; Я должен был сначала проверить, и я должен был определить (что я собирался сделать, но забыл).

σ_{x}

$\sigma_x$

— whuber

10

Некоторые ссылки, как маленькие свечи на тортах других:

Кацнельсон и Коц (1957) доказали, что до тех пор, пока все , коэффициент вариации не может превышать . Этот результат упоминался ранее Лонгли (1952). Крамер (1946, с.357) показал менее резкий результат, а Кирби (1974) - менее общий результат. $x_i \ge 0$ $\sqrt{n − 1}$

Крамер, H. 1946. Математические методы статистики . Принстон, Нью-Джерси: издательство Принстонского университета.

Katsnelson J. и S. Kotz. 1957. О верхних границах некоторых мер изменчивости. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103–107.

Кирби В. 1974. Алгебраическая ограниченность выборочной статистики. Исследование водных ресурсов 10: 220–222.

Лонгли, RW 1952. Меры изменчивости осадков. Ежемесячный обзор погоды 80: 111–117.

Я наткнулся на эти документы в работе над

Кокс, Нью-Джерси. Пределы асимметрии и эксцесс. Stata Journal 10: 482-495.

в котором обсуждаются в целом сходные оценки асимметрии и эксцесса на основе моментов.

— Ник Кокс
источник

8

С двумя числами , некоторым и любым : $x_i \ge x_j$ $\delta \gt 0$ $\mu$

(x_{i} + δ - μ)^{2} + (x_{j} - δ - μ)^{2} - (x_{i} - μ)^{2} - (x_{j} - μ)^{2} = 2 δ (x_{i} - x_{j} + δ) > 0.

$(x_i+\delta - \mu)^2 + (x_j - \delta - \mu)^2 - (x_i - \mu)^2 - (x_j - \mu)^2 = 2\delta(x_i - x_j +\delta) \gt 0.$

Применяя это к неотрицательным точкам данных, это означает, что если все, кроме одного из чисел не равны нулю и, следовательно, не могут быть уменьшены в дальнейшем, можно увеличить дисперсию и стандартное отклонение, увеличив разрыв между любой парой точек данных. сохраняя то же самое среднее, увеличивая тем самым коэффициент вариации. Таким образом, максимальный коэффициент вариации для набора данных, как вы предлагаете: . $n$ $n$ $\sqrt{n-1}$

$c$ не должен влиять на результат, так как не изменяется, если все значения умножены на любую положительную константу (как я уже сказал в своем комментарии). $\frac{\sigma_x}{\bar{x}}$ $k$

— Генри
источник