Наиболее очевидная причина заключается в том, что в значениях часто отсутствует временная последовательность. Таким образом, если вы перемешиваете данные, то нет никакой разницы в информации, передаваемой этими данными. Если мы следуем вашему методу, то каждый раз, когда вы перемешиваете данные, вы получаете различную выборочную дисперсию.
Более теоретический ответ заключается в том, что выборочная дисперсия оценивает истинную дисперсию случайной величины. Истинная дисперсия случайной величины равна
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Здесь представляет ожидание или «среднее значение». Таким образом, определение дисперсии - это среднеквадратичное расстояние между переменной и ее средним значением. Когда вы смотрите на это определение, здесь нет «временного порядка», так как нет данных. Это просто атрибут случайной величины.E
Когда вы собираете данные iid из этого дистрибутива, у вас есть реализации . Лучший способ оценить ожидание - взять средние значения выборки. Ключевым моментом здесь является то, что мы получили данные iid, и, следовательно, нет упорядочения данных. Образец совпадает с образцомx 1 , x 2 , … , x n x 2 , x 5 , x 1 , x n . ,x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
РЕДАКТИРОВАТЬ
Дисперсионная дисперсия измеряет определенный тип дисперсии для образца, который измеряет среднее расстояние от среднего значения. Существуют и другие виды дисперсии, такие как диапазон данных и диапазон между квантилями.
Даже если вы отсортируете значения в порядке возрастания, это не изменит характеристики образца. Образец (данные), которые вы получаете, являются реализациями из переменной. Вычисление дисперсии выборки сродни пониманию степени дисперсии в переменной. Например, если вы выбрали 20 человек и вычислили их рост, то это 20 «реализаций» случайной величины рост людей. Теперь выборочная дисперсия должна измерять изменчивость роста особей в целом. Если вы заказываете данные
100 , 110 , 123 , 124 , … ,X=
100,110,123,124,…,
это не меняет информацию в образце.
Давайте посмотрим на еще один пример. Допустим, у вас есть 100 наблюдений от случайной величины, упорядоченной таким образом Тогда среднее последующее расстояние составляет 1 единицу, поэтому по вашему методу дисперсия будет равна 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
Способ интерпретации «дисперсии» или «дисперсии» состоит в том, чтобы понять, какой диапазон значений вероятен для данных. В этом случае вы получите диапазон 0,99 единицы, что, конечно, не очень хорошо отражает вариацию.
Если вместо среднего вы просто суммируете последующие различия, то ваша дисперсия будет 99. Конечно, это не представляет изменчивость в выборке, потому что 99 дает вам диапазон данных, а не чувство изменчивости.