Почему дисперсия не определяется как разница между каждым значением, следующим друг за другом?

19

Это может быть простой вопрос для многих, но вот он:

Почему дисперсия не определяется как разница между всеми значениями, следующими друг за другом, а не как разница между средними значениями?

Это был бы более логичный выбор для меня, я думаю, что я, очевидно, наблюдаю за некоторыми недостатками. Благодарность

РЕДАКТИРОВАТЬ:

Позвольте мне перефразировать как можно более четко. Это то, что я имею в виду:

Предположим, у вас есть ряд чисел, заказанных: 1,2,3,4,5
Рассчитать и суммировать (абсолютные) различия (непрерывно, между каждым последующим значением, а не попарно) между значениями (без использования среднего).
Разделите на количество различий
(Продолжение: будет ли другой ответ, если номера будут неупорядоченными)

-> Каковы недостатки этого подхода по сравнению со стандартной формулой для дисперсии?

variance

— user2305193
источник

1

Вам также может быть интересно прочитать об автокорреляции (например, stats.stackexchange.com/questions/185521/… ).

— Тим

2

@ user2305193 whuber ответ правильный, но его формула использует квадратное расстояние между порядком данных и усреднением по всем порядкам. Тем не менее, хитрый трюк - процесс поиска отклонения, который вы указали, - именно то, что я пытался реализовать в своем ответе, и продемонстрировал, что это не поможет. Пытаюсь устранить путаницу.

— Гринпаркер

1

Для удовольствия посмотрите Аллан Варианс.

— Хоббс

с другой стороны, я полагаю, поскольку вы не возводите в квадрат разницы (и впоследствии вы не берете квадратный корень), а берете абсолютные значения, это должно быть скорее «почему это не то, как мы вычисляем стандартное отклонение» вместо «почему не так, как мы рассчитываем дисперсию». Но я сейчас

— отдохну

27

Наиболее очевидная причина заключается в том, что в значениях часто отсутствует временная последовательность. Таким образом, если вы перемешиваете данные, то нет никакой разницы в информации, передаваемой этими данными. Если мы следуем вашему методу, то каждый раз, когда вы перемешиваете данные, вы получаете различную выборочную дисперсию.

Более теоретический ответ заключается в том, что выборочная дисперсия оценивает истинную дисперсию случайной величины. Истинная дисперсия случайной величины равна $X$

E [(X - E X)^{2}] .

$E\left[ (X - EX)^2 \right].$

Здесь представляет ожидание или «среднее значение». Таким образом, определение дисперсии - это среднеквадратичное расстояние между переменной и ее средним значением. Когда вы смотрите на это определение, здесь нет «временного порядка», так как нет данных. Это просто атрибут случайной величины. $E$

Когда вы собираете данные iid из этого дистрибутива, у вас есть реализации . Лучший способ оценить ожидание - взять средние значения выборки. Ключевым моментом здесь является то, что мы получили данные iid, и, следовательно, нет упорядочения данных. Образец совпадает с образцом $x_1, x_2, \dots, x_n$ $x_1, x_2, \dots, x_n$ $x_2, x_5, x_1, x_n..$

РЕДАКТИРОВАТЬ

Дисперсионная дисперсия измеряет определенный тип дисперсии для образца, который измеряет среднее расстояние от среднего значения. Существуют и другие виды дисперсии, такие как диапазон данных и диапазон между квантилями.

Даже если вы отсортируете значения в порядке возрастания, это не изменит характеристики образца. Образец (данные), которые вы получаете, являются реализациями из переменной. Вычисление дисперсии выборки сродни пониманию степени дисперсии в переменной. Например, если вы выбрали 20 человек и вычислили их рост, то это 20 «реализаций» случайной величины рост людей. Теперь выборочная дисперсия должна измерять изменчивость роста особей в целом. Если вы заказываете данные $X =$

100, 110, 123, 124, \dots,

$100, 110, 123, 124, \dots,$

это не меняет информацию в образце.

Давайте посмотрим на еще один пример. Допустим, у вас есть 100 наблюдений от случайной величины, упорядоченной таким образом Тогда среднее последующее расстояние составляет 1 единицу, поэтому по вашему методу дисперсия будет равна 1.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, . . . 100.

$1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ... 100.$

Способ интерпретации «дисперсии» или «дисперсии» состоит в том, чтобы понять, какой диапазон значений вероятен для данных. В этом случае вы получите диапазон 0,99 единицы, что, конечно, не очень хорошо отражает вариацию.

Если вместо среднего вы просто суммируете последующие различия, то ваша дисперсия будет 99. Конечно, это не представляет изменчивость в выборке, потому что 99 дает вам диапазон данных, а не чувство изменчивости.

— Greenparker
источник

1

Последний абзац, к которому вы обратились, ха-ха, спасибо за этот ошеломляющий ответ, я бы хотел, чтобы у меня было достаточно представителей, чтобы выразить это, пожалуйста, люди, сделайте это для меня ;-) ПРИНЯТО !!!

— user2305193

Последующие действия: что я действительно имел в виду (да, извините, я понял правильный вопрос только после прочтения вашего ответа), вы суммировали различия и поделили их на количество выборок. В вашем последнем примере это будет 99/100 - можете ли вы уточнить это для полной изумленности?

— user2305193

@ user2305193 Правильно, я сказал, что в среднем 1 единица, что неверно. Это должно было быть 0,99 единиц. Поменял это.

— Гринпаркер

Для получения дополнительной информации о серии 1-100: дисперсия в 1-100 будет 841,7 и стандартное отклонение 29,01 источника . Так что, действительно, совсем другой результат.

— user2305193

31

Это будет определено , что путь!

Вот эта алгебра. Пусть значения будут . Обозначим через эмпирическая функция распределения этих значений (что означает , что каждый способствует вероятностную массу при значении ) , и пусть и независимые случайные величины с распределением . В силу основных дисперсионных свойств (а именно, это квадратичная форма), а также определения и того факта, что и имеют одинаковое среднее значение, $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ $F$ $x_i$ $1/n$ $x_i$ $X$ $Y$ $F$ $F$ $X$ $Y$

\begin{aligned} Var (x) & = Var (X) = \frac{1}{2} (Var (X) + Var (Y)) = \frac{1}{2} (Var (X - Y)) \\ = \frac{1}{2} (E ((X - Y)^{2}) - E (X - Y)^{2}) \\ = E (\frac{1}{2} (X - Y)^{2}) - 0 \\ = \frac{1}{n^{2}} \sum_{i, j} \frac{1}{2} (x_{i} - x_{J})^{2}, \end{aligned}

$\eqalign{ \operatorname{Var}(\mathbf{x})&=\operatorname{Var}(X) = \frac{1}{2}\left(\operatorname{Var}(X) + \operatorname{Var}(Y)\right)=\frac{1}{2}\left(\operatorname{Var}(X-Y)\right)\\ &=\frac{1}{2}\left(\mathbb{E}((X-Y)^2) - \mathbb{E}(X-Y)^2\right)\\ &=\mathbb{E}\left(\frac{1}{2}(X-Y)^2\right) - 0\\ &=\frac{1}{n^2}\sum_{i,j}\frac{1}{2}(x_i - x_j)^2. }$

Эта формула не зависит от порядка : она использует все возможные пары компонентов, сравнивая их, используя половину квадратов разностей. Однако он может быть связан со средним значением по всем возможным порядкам (группа всех Перестановок индексов ). А именно, $\mathbf{x}$ $\mathfrak{S}(n)$ $n!$ $1,2,\ldots, n$

Var (x) = \frac{1}{n^{2}} \sum_{i, j} \frac{1}{2} (x_{i} - x_{j})^{2} = \frac{1}{n!} \sum_{σ \in S (n)} \frac{1}{n} \sum_{i = 1}^{n - 1} \frac{1}{2} (x_{σ (i)} - x_{σ (i + 1)})^{2} .

$\operatorname{Var}(\mathbf{x})=\frac{1}{n^2}\sum_{i,j}\frac{1}{2}(x_i - x_j)^2 = \frac{1}{n!}\sum_{\sigma\in\mathfrak{S}(n)} \frac{1}{n} \sum_{i=1}^{n-1} \frac{1}{2}(x_{\sigma(i)} - x_{\sigma(i+1)})^2.$

Это внутреннее суммирование принимает переупорядоченные значения и суммирует (половину) квадратные различия между всеми подряд пар. Деление на существу усредняет эти последовательные квадратные различия . Он вычисляет то, что известно как вариабельность лаг-1 . Внешнее суммирование делает это для всех возможных порядков . $x_{\sigma(1)}, x_{\sigma(2)}, \ldots, x_{\sigma(n)}$ $n-1$ $n$

Эти два эквивалентных алгебраических представления стандартной формулы дисперсии дают новое понимание того, что означает дисперсия. Полувариантность является обратной мерой последовательной ковариации последовательности: ковариация высока (и числа положительно коррелированы), когда вариабельность мала, и наоборот. Таким образом, дисперсия неупорядоченного набора данных является своего рода усреднением всех возможных вариаций, которые можно получить при произвольных переупорядочениях.

— Whuber
источник

1

@ Mur1lo Напротив: я считаю, что этот вывод является правильным. Примените формулу к некоторым данным и посмотрите!

— whuber

1

Я думаю, что Mur1lo, возможно, говорил не о правильности формулы для дисперсии, а о, по-видимому, прямом переходе от ожиданий случайных величин к функциям выборочных величин.

— Glen_b

1

@glen Но именно это позволяет нам эмпирическая функция распределения. Вот и весь смысл этого подхода.

— whuber

3

Да, это ясно для меня; Я пытался указать, где замешательство, казалось, лежало. Извините за расплывчатость. Надеюсь, теперь стало понятнее, почему это только кажется проблемой. * (именно поэтому я использовал слово «очевидный» ранее, чтобы подчеркнуть, что именно появление этого шага вне контекста могло стать причиной путаницы)

$\:$

— Glen_b -Reinstate Monica

2

@ Mur1o Единственное, что я сделал в любом из этих уравнений, - это применил определения. Там нет перехода от ожиданий к «количествам образцов». (В частности, ни один образец не был поставлен или использован.) Таким образом, я не могу ни определить, в чем заключается очевидная проблема, ни предложить альтернативное объяснение. Если бы вы могли рассказать о своей проблеме, я мог бы ответить.

F

$F$

— whuber

11

Просто в дополнение к другим ответам, дисперсия может быть вычислена как квадрат разницы между терминами:

\begin{aligned} Var (X) = \\ \frac{1}{2 \cdot n^{2}} \sum_{i}^{n} \sum_{j}^{n} {(x_{i} - x_{j})}^{2} = \\ \frac{1}{2 \cdot n^{2}} \sum_{i}^{n} \sum_{j}^{n} {(x_{i} - \bar{x} - x_{j} + \bar{x})}^{2} = \\ \frac{1}{2 \cdot n^{2}} \sum_{i}^{n} \sum_{j}^{n} ((x_{i} - \bar{x}) - (x_{j} - \bar{x}))^{2} = \\ \frac{1}{n} \sum_{i}^{n} {(x_{i} - \bar{x})}^{2} \end{aligned}

$\begin{align} &\text{Var}(X) = \\ &\frac{1}{2\cdot n^2}\sum_i^n\sum_j^n \left(x_i-x_j\right)^2 = \\ &\frac{1}{2\cdot n^2}\sum_i^n\sum_j^n \left(x_i - \overline x -x_j + \overline x\right)^2 = \\ &\frac{1}{2\cdot n^2}\sum_i^n\sum_j^n \left((x_i - \overline x) -(x_j - \overline x\right))^2 = \\ &\frac{1}{n}\sum_i^n \left(x_i - \overline x \right)^2 \end{align}$

Я думаю, что это наиболее близко к предложению ОП. Помните, что дисперсия является мерой дисперсии каждого наблюдения сразу, а не только между «соседними» числами в наборе.

ОБНОВИТЬ

Используя ваш пример: . Мы знаем, что дисперсия . $X = {1, 2, 3, 4, 5}$ $Var(X) = 2$

С вашим предложенным методом , так что мы заранее знаем, как принимать различия между соседями, так как дисперсия не складывается. Я имел в виду то, что брал каждую возможную разницу в квадрате и затем суммировал $Var(X) = 1$

V a r (X) = = \frac{(5 - 1)^{2} + (5 - 2)^{2} + (5 - 3)^{2} + (5 - 4)^{2} + (5 - 5)^{2} + (4 - 1)^{2} + (4 - 2)^{2} + (4 - 3)^{2} + (4 - 4)^{2} + (4 - 5)^{2} + (3 - 1)^{2} + (3 - 2)^{2} + (3 - 3)^{2} + (3 - 4)^{2} + (3 - 5)^{2} + (2 - 1)^{2} + (2 - 2)^{2} + (2 - 3)^{2} + (2 - 4)^{2} + (2 - 5)^{2} + (1 - 1)^{2} + (1 - 2)^{2} + (1 - 3)^{2} + (1 - 4)^{2} + (1 - 5)^{2}}{2 \cdot 5^{2}} знак равно знак равно \frac{16 + 9 + 4 + 1 + 9 + 4 + 1 + 1 + 4 + 1 + 1 + 4 + 1 + 1 + 4 + 9 + 1 + 4 + 9 + 16}{50} знак равно знак равно 2

$Var(X) = \\ = \frac{(5-1)^2+(5-2)^2+(5-3)^2+(5-4)^2+(5-5)^2+(4-1)^2+(4-2)^2+(4-3)^2+(4-4)^2+(4-5)^2+(3-1)^2+(3-2)^2+(3-3)^2+(3-4)^2+(3-5)^2+(2-1)^2+(2-2)^2+(2-3)^2+(2-4)^2+(2-5)^2+(1-1)^2+(1-2)^2+(1-3)^2+(1-4)^2+(1-5)^2}{2 \cdot 5^2} = \\ =\frac{16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+16}{50} = \\ =2$

— поджигатель
источник

Теперь я серьезно запутался, ребята

— user2305193

@ user2305193 В своем вопросе вы имели в виду каждую попарную разницу или разницу между значением и следующим в последовательности? Не могли бы вы уточнить?

— Firebug

2

@ Mur1lo, хотя никто, я понятия не имею, о чем ты говоришь.

— Firebug

2

@ Mur1lo Это общий вопрос, и я ответил на него вообще. Дисперсия - это вычисляемый параметр, который можно оценить по выборкам. Этот вопрос не об оценке, хотя. Также речь идет о дискретных множествах, а не о непрерывных распределениях.

— Firebug

1

Вы показали, как оценить дисперсию по ее U-статистике и ее штрафу. Проблема в том, что когда вы пишете: Var («верхний регистр» X) = вещи, включающие «нижний регистр» x, вы смешиваете два разных понятия параметра и оценки.

— Mur1lo

6

Другие ответили о полезности дисперсии, определенной как обычно. В любом случае, у нас просто два законных определения разных вещей: обычное определение дисперсии и ваше определение.

Тогда главный вопрос - почему первый называется дисперсией, а не вашим. Это просто вопрос соглашения. До 1918 года вы могли изобрести все, что захотите, и назвать это «дисперсией», но в 1918 году Фишер использовал это имя для того, что все еще называется дисперсией, и если вы хотите определить что-то еще, вам нужно будет найти другое имя, чтобы назвать его.

Другой вопрос, может ли вещь, которую вы определили, быть полезной для чего-либо. Другие указали, что его проблемы должны использоваться в качестве меры дисперсии, но вам решать, как найти применение. Может быть, вы найдете настолько полезные приложения, что за столетие ваша вещь будет более известной, чем дисперсия.

— Pere
источник

Я знаю, что каждое определение зависит от людей, принимающих решение, я действительно искал помощи в плюсах / минусах для каждого подхода. Обычно есть веская причина для людей, сходящихся к определению, и, как я подозревал, не сразу понял, почему.

— user2305193

1

Фишер ввел дисперсию как термин в 1918 году, но идея старше.

— Ник Кокс

Насколько я знаю, Фишер был первым, кто использовал название «дисперсия» для дисперсии. Вот почему я говорю, что до 1918 года вы могли использовать «дисперсию», чтобы назвать что-то еще, что вы изобрели.

— Пер

3

Ответ @GreenParker более полный, но для иллюстрации недостатка вашего подхода может пригодиться интуитивно понятный пример.

В вашем вопросе вы, кажется, предполагаете, что порядок, в котором появляются реализации случайной величины, имеет значение. Однако легко вспомнить примеры, в которых это не так.

Рассмотрим пример роста людей в популяции. Порядок, в котором измеряются индивидуумы, не имеет отношения как к среднему росту в популяции, так и к дисперсии (насколько эти значения распределены вокруг среднего значения).

Ваш метод может показаться странным применительно к такому случаю.

— Антуан Верне
источник

2

Хотя есть много хороших ответов на этот вопрос, я считаю, что некоторые важные моменты были оставлены позади, и, поскольку этот вопрос возник с действительно интересным вопросом, я хотел бы высказать еще одну точку зрения.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

$X$ $F_X$ $\mu_x$

μ_{Икс} знак равно \int_{- \infty}^{+ \infty} Икс d F_{Икс} (Икс)

$\mu_X = \int_{-\infty}^{+\infty}xdF_{X}(x)$

$X$ $\sigma^2_X$

σ_{Икс}^{2} знак равно \int_{- \infty}^{+ \infty} (Икс - μ_{Икс})^{2} d F_{Икс} (Икс)

$\sigma^2_X = \int_{-\infty}^{+\infty}(x - \mu_X)^2dF_{X}(x)$

Роль оценки в статистике состоит в том, чтобы обеспечить из ряда реализаций rv хорошее приближение для представляющих интерес параметров.

Я хотел показать, что существует большая разница в понятиях параметров (дисперсия для этого конкретного вопроса) и статистике, которую мы используем для ее оценки.

Why isn't the variance calculated this way?

$X$ $x = \{x_1,\ldots,x_n\}$

ψ (Икс) знак равно \frac{1}{N} Σ_{я знак равно 2}^{N} | {Икс}_{я} - {Икс}_{я - 1} |

$\psi(x) = \frac{1}{n}\sum_{i = 2}^{n}|x_i - x_{i-1}|$

и обычная статистика:

S^{2} (Икс) знак равно \frac{1}{N - 1} Σ_{я знак равно я}^{N} ({Икс}_{я} - \bar{Икс})^{2},

$S^2(x) = \frac{1}{n-1}\sum_{i = i}^{n}(x_i - \bar{x})^2,$

$\bar{x}$

При сравнении двух оценочных параметров обычным критерием для наилучшего является критерий, который имеет минимальную среднеквадратичную ошибку (MSE), и важным свойством MSE является то, что его можно разложить на две составляющие:

MSE = оценка смещения + оценка дисперсии.

$S^2$

Во-первых, это объективная оценка дисперсии, но ваша статистика не беспристрастна.
$S^2$ $\sigma^2$

$S^2$

— Mur1lo
источник

3

1 / n

$1/n$

1 / (n - 1)

$1/(n-1)$

2

Разница во времени действительно используется в одной форме, дисперсии Аллана. http://www.allanstime.com/AllanVariance/

— Ли Дж. Рикард
источник

1

Здесь много хороших ответов, но я добавлю несколько.

То, как оно определено сейчас, оказалось полезным. Например, нормальные распределения все время появляются в данных, а нормальное распределение определяется его средним значением и дисперсией. Редактировать: как отметил @whuber в комментарии, есть несколько других способов указать нормальное распределение. Но ни один из них, насколько я знаю, не имеет дело с парами точек в последовательности.
Дисперсия, как обычно определяется, дает вам меру того, насколько разбросаны данные. Например, допустим, у вас есть много точек данных со средним нулем, но когда вы смотрите на это, вы видите, что данные в основном либо около -1, либо около 1. Ваша дисперсия будет около 1. Тем не менее, под вашим мера, вы получите в общей сложности ноль. Какой из них более полезен? Ну, это зависит, но мне не ясно, что мера нуля для его "дисперсии" будет иметь смысл.
Это позволяет вам делать другие вещи. Просто пример, в моем классе статистики мы увидели видео о сравнении кувшинов (в бейсболе) с течением времени. Насколько я помню, кувшины, казалось, становились хуже, так как доля ударов, которые были поражены (или были хоум-ранами), росла. Одна из причин в том, что баттерс становился лучше. Это затрудняло сравнение кувшинов с течением времени. Тем не менее, они могли использовать z-счет кувшинов, чтобы сравнить их с течением времени.

Тем не менее, как сказал @Pere, ваша метрика может оказаться очень полезной в будущем.

— круглый квадрат
источник

1

Нормальное распределение также может быть определено его средним и четвертым центральным моментом, в этом отношении - или с помощью многих других пар моментов. Разница не является особенной в этом смысле.

— whuber

@ интересно. Признаюсь, я этого не осознавал. Тем не менее, если я не ошибаюсь, все моменты являются «дисперсионными» в том смысле, что они основаны на расстояниях от определенной точки, а не на парах точек в последовательности. Но я отредактирую свои ответы, чтобы записать то, что вы сказали.

— roundsquare

1

Не могли бы вы объяснить, в каком смысле вы имеете в виду «иметь дело с парами точек в последовательности»? Это не часть стандартного определения момента. Также обратите внимание, что все абсолютные моменты вокруг среднего значения, которые включают все четные моменты вокруг среднего значения, дают «меру того, насколько распределены данные». Поэтому можно построить аналог Z-счета с ними. Таким образом, ни одна из ваших трех точек, по-видимому, не отличает дисперсию от какого-либо абсолютного центрального момента.

— whuber

@ Да, да. Исходный вопрос содержал последовательность из 4 шагов, в которой вы сортируете точки, берете различия между каждой точкой и следующей точкой, а затем усредняете их. Это то, что я назвал «иметь дело с парами точек в последовательности». Таким образом, вы правы, ни один из трех пунктов, которые я дал, не отличает дисперсию от какого-либо абсолютного центрального момента - они предназначены для того, чтобы отличить дисперсию (и, я полагаю, все абсолютные центральные моменты) от процедуры, описанной в первоначальном вопросе.

— roundsquare