Почему стандартное отклонение определяется как sqrt дисперсии, а не как sqrt суммы квадратов по N?

Сегодня я преподавал начальный класс статистики, и один студент подошел ко мне с вопросом, который я перефразирую здесь: «Почему стандартное отклонение определяется как квадратичная дисперсия, а не как квадрат суммы квадратов над N?»

Мы определяем дисперсию населения: $\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2}$

И стандартное отклонение: $\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}}$ .

Интерпретация, которую мы можем дать $\sigma$ состоит в том, что она дает среднее отклонение единиц в популяции от среднего значения по $X$ .

Однако, в определении sd мы делим квадрат суммы суммы квадратов на $\sqrt{N}$ . Вопрос, который поднимает студент, заключается в том, почему мы не делимвместо этогоплощадь суммы квадратов на $N$ Таким образом, мы приходим к конкурирующей формуле:

σ_{n e w} = \frac{1}{N} \sqrt{\sum (x_{i} - μ)^{2}} .

$\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.$ Студент утверждал, что эта формула больше похожа на «среднее» отклонение от среднего, чем при делении на

\sqrt{N}

$\sqrt{N}$ как в

σ

$\sigma$ .

Я думал, что этот вопрос не глупый. Я хотел бы дать ответ студенту, который идет дальше, чем сказать, что SD определяется как sqrt дисперсии, которая является среднеквадратичным отклонением. Иными словами, почему студент должен использовать правильную формулу и не следовать ее идее?

Этот вопрос относится к более старой теме и ответам, представленным здесь . Ответы там идут в трех направлениях:

$\sigma$ - среднеквадратическое отклонение (RMS), а не «типичное» отклонение от среднего значения (т. е. $\sigma_{new}$ ). Таким образом, это определяется по-разному.
Обладает хорошими математическими свойствами.
Кроме того, sqrt вернет «единицы» в их первоначальный масштаб. Однако это также относится и к , который вместо этого делится на $\sigma_{new}$ $N$

Оба пункта 1 и 2 являются аргументами в пользу sd как RMS, но я не вижу аргумента против использования . Какие были бы хорошие аргументы, чтобы убедить учащихся начального уровня в использовании среднего RMS-расстояния от среднего? $\sigma_{new}$ $\sigma$

— Томка
источник

Я думаю, что сам вопрос «Почему стандартное отклонение определяется как ...» трудно ответить. Определения - это просто условные обозначения. Они не должны соответствовать почему .

— ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Может ли быть так, что то, что находится внутри скобок, как-то потеряно в вопросе?

— ttnphns

Но SD служит ряду целей; должна быть лучшая мотивация, чем это определено так. Это было бы полезно, особенно при обучении студентов. Я могу представить себе мотивацию в смысле чебышевского неравенства (мин. Доли дел в сфере +/- постоянный фактор sd).

— Томка

Не могу ответить, потому что ваш Q на удержании, но попробуйте это: представьте, что вы наблюдаете значения 1 и 3 в примерно равных пропорциях (подбрасывание монеты,

). «Типичное расстояние» наблюдений от среднего значения должно быть примерно таким: 1. С вашим

H = 3

$H=3$

T = 1

$T=1$

формула, рассмотрим, что происходит с этой мерой типичного расстояния для

очень, очень большой. В каждом случае

будет около 1, поэтому их сумма квадратов будет около

. Числитель будет близок к

\sqrt{S S E} / n

$\sqrt{SSE}/n$

n

$n$

| x_{i} - \bar{x} |

$|x_i-\bar{x}|$

n

$n$

так что ваша формула будет становиться все меньше и меньше приувеличении

, хотя типичное расстояние от среднего значения не меняется.

\sqrt{n}

$\sqrt{n}$

n

$n$

— Glen_b

@whuber Я сделал еще одно обновление и надеюсь, что смысл, который я изложил, стал яснее. Заметьте, я прошу совета по обучению здесь, помимо вопроса о сборе статистических данных. Я не предлагаю альтернативную формулу, но привел пример из школьной ситуации хорошего вопроса от ученика, на который у меня не было немедленного ответа. Если вы согласны, прошу освободить вопрос из режима ожидания.

— Томка

Ответы:

Есть как минимум три основные проблемы, которые могут быть легко объяснены новичкам:

«Новый» SD даже не определен для бесконечных популяций. (В таких случаях можно было бы объявить его всегда равным нулю, но это не сделало бы его более полезным.)
Новый SD не ведет себя так, как среднее должно быть при случайной выборке.
Хотя новый SD может использоваться со всей математической строгостью для оценки отклонений от среднего (в выборках и конечных популяциях), его интерпретация излишне сложна.

1. Применимость нового SD ограничена

Точка (1) может быть доведена до сведения даже тех, кто не разбирается в интеграции, указав, что, поскольку дисперсия явно является средним арифметическим (квадратом отклонений), она имеет полезное расширение для моделей «бесконечных» популяций, для которых Интуиция о существовании среднего арифметического сохраняется. Поэтому его квадратный корень - обычный SD - также отлично определен в таких случаях и столь же полезен в своей роли, как (нелинейное повторное выражение) дисперсия. Тем не менее, новый SD делит это среднее на произвольно большое , что делает проблематичным его обобщение за пределы конечных популяций и конечных выборок: что следует $\sqrt{N}$ быть равным в таких случаях? $1/\sqrt{N}$

2. Новый SD не средний

Любая статистика, достойная названия «средняя», должна обладать свойством, которое сходится к значению совокупности по мере увеличения размера случайной выборки из совокупности. Любое фиксированное значение, кратное SD, будет обладать этим свойством, потому что множитель будет применяться как для вычисления выборочного SD, так и SD для совокупности. (Хотя это наблюдение не противоречит непосредственно аргументу Алекоса Пападопулоса, это говорит о том, что аргумент имеет отношение только к реальным вопросам.) Однако «новый» SD, равный раз, чем обычно, очевидно, сходится кпри любых обстоятельствах, поскольку размер выборкистановится большим. Следовательно,хотя для любого фиксированного размера выборкиновая SD (надлежащим образом интерпретированная) является совершенно адекватной мерой отклонения от среднего значения,ее нельзя с полным основанием считатьуниверсальноймерой, применимой с одинаковой интерпретацией для всех размеров выборки, и при этом она не может правильно называть «средним» в любом полезном смысле. $1/\sqrt{N}$ $0$ $N$ $N$

3. Новый SD сложно интерпретировать и использовать

Попробуйте взять образцы (скажем) размера . Новый SD в этих случаях $N=4$ раз больше обычного SD. Поэтому он имеет сопоставимые интерпретации, такие как аналог правила 68-95-99 (около 68% данных должны находиться вдвухновых SD среднего значения, 95% из них вчетырехновых SD среднего ит.Д .; и версии классических неравенств, таких как Чебычева, будут иметь место (не болееданных может лежать более чем нановых SD от их среднего значения), и теорема о центральном пределе может быть аналогичным образом переформулирована в терминах нового SD (делится на $1/\sqrt{N}=1/2$ $1/k^2$ $2k$ $\sqrt{N}$ times the new SD in order to standardize the variable). Thus, in this specific and clearly constrained sense, there is nothing wrong with the student's proposal. The difficulty, though, is that these statements all contain--quite explicitly--factors of $\sqrt{N}=2$ . Although there is no inherent mathematical problem with this, it certainly complicates the statements and interpretation of the most fundamental laws of statistics.

It is of note that Gauss and others originally parameterized the Gaussian distribution by $\sqrt{2}\sigma$ , effectively using $\sqrt{2}$

— Whuber
источник

\frac{1}{\sqrt{N}}

$\frac{1}{\sqrt{N}}$

0

$0$

N

$N$

\frac{1}{N}

$\frac{1}{N}$ obviously does?

— tomka

We're comparing the SD of the sample to

1 / \sqrt{N}

$1/\sqrt{N}$ times the SD of the sample (the "new SD"). As

N

$N$ grows large, the SD of the sample approaches a (usually) nonzero constant equal to the population SD. Therefore

1 / \sqrt{N}

$1/\sqrt{N}$ times the sample SD converges to zero.

— whuber

This is standard material--consult any rigorous textbook in mathematical statistics (which, to be fair, would not be accessible to most beginners). However, the results important for my answer follow from a weaker and intuitively obvious statement. Fix a number

A > 1

$A \gt 1$ and let

σ

$\sigma$ be the population SD. Consider the chance that the sample SD will lie between

σ / A

$\sigma/A$ and

A σ

$A\sigma$ . It suffices that this chance goes to zero as the sample size

N

$N$ increases. This alone shows that

1 / \sqrt{N}

$1/\sqrt{N}$ times the sample SD converges to

0

$0$ almost surely, demonstrating point (2) in the answer.

— whuber

+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)

— Nikos M.

@Nikos Thank you, but what is not scale invariant? Both

S D / \sqrt{N}

$SD/\sqrt{N}$ and

S D

$SD$ change when the data are rescaled.

— whuber

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

A A D = \frac{1}{2} (| x_{1} - \bar{x} | + | x_{2} - \bar{x} |) = . . . = \frac{| x_{1} - x_{2} |}{2}

$AAD = \frac 12 (|x_1-\bar x| + |x_2-\bar x|) = ...= \frac {|x_1-x_2|}{2}$

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ^{2} = \frac{1}{2} [(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2}] = \frac{1}{2} [{(\frac{x_{1} - x_{2}}{2})}^{2} + {(\frac{x_{2} - x_{1}}{2})}^{2}]

$\sigma^2=\frac{1}{2}[(x_1-\bar x)^2 + (x_2-\bar x)^2] = \frac 12 \left[\left(\frac {x_1-x_2}{2}\right)^2 + \left(\frac {x_2-x_1}{2}\right)^2\right]$

= \frac{1}{2} [\frac{(x_{1} - x_{2})^{2}}{4} + \frac{(x_{1} - x_{2})^{2}}{4}] = \frac{1}{2} \frac{(x_{1} - x_{2})^{2}}{2}

$=\frac 12 \left[\frac {(x_1-x_2)^2}{4} + \frac {(x_1-x_2)^2}{4}\right]=\frac 12 \frac {(x_1-x_2)^2}{2}$

= \frac{1}{2} \cdot \frac{| x_{1} - x_{2} |^{2}}{2}

$=\frac 12\cdot \frac {|x_1-x_2|^2}{2}$

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it $q$

q \equiv \frac{1}{2} \cdot \sqrt{\frac{| x_{1} - x_{2} |^{2}}{2}} = \frac{1}{2} \frac{| x_{1} - x_{2} |}{\sqrt{2}} = \frac{1}{\sqrt{2}} A A D < A A D

$q \equiv \frac 12\cdot \sqrt {\frac {|x_1-x_2|^2}{2}} = \frac 12 \frac {|x_1-x_2|}{\sqrt 2} = \frac 1{\sqrt 2} AAD < AAD$

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

S D \equiv \sqrt{σ^{2}} = \frac{| x_{1} - x_{2} |}{2} = A A D

$SD \equiv \sqrt {\sigma^2} = \frac {|x_1-x_2|}{2} =AAD$

Since we want to "stay as close as possible" to the intuitive measure, we should use $SD$ .

ADDENDUM
Let's consider now a sample of size $n$ We have

n \cdot A A D = \sum_{i = 1}^{n} | x_{i} - \bar{x} |

$n\cdot AAD = \sum_{i=1}^n |x_i-\bar x|$

and

n \cdot Var (X) = \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2}

$n \cdot \text{Var}(X) = \sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n |x_i-\bar x|^2$

we can write the right-hand side of the variance expression as

\sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2} = {(\sum_{i = 1}^{n} | x_{i} - \bar{x} |)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$\sum_{i=1}^n |x_i-\bar x|^2 = \left(\sum_{i=1}^n |x_i-\bar x|\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

= {(n \cdot A A D)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$= \left (n\cdot AAD\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

Then the dispersion measure $q_n$ will be

q_{n} \equiv \frac{1}{n} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$q_n \equiv \frac 1n \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[A A D^{2} - \frac{1}{n^{2}} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[AAD^2 - \frac 1{n^2} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Now think informally: note that $\sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$ contains $n^2-n$ terms, and so divided by $n^2$ will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in $AAD^2$ : this is a primitive way to "sense" why $q_n$ will tend to zero as $n$ grows large. On the other hand the Standard Deviation as defined would be

S D \equiv \frac{1}{\sqrt{n}} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$SD \equiv \frac 1{\sqrt n} \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[n \cdot A A D^{2} - \frac{1}{n} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[n\cdot AAD^2 - \frac 1{n} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Continuing are informal thinking, the first term gives us $n$ "terms in the 2nd power", while the second term gives us $n-1$ "terms in the second power" . So we will be left eventually with one such term, as $n$ grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any $n$ , as well as for the case when $n\rightarrow \infty$ .

— Alecos Papadopoulos
источник

Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).

— whuber

@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!

— Alecos Papadopoulos