Я изо всех сил пытаюсь понять разницу между стандартной ошибкой и стандартным отклонением. Чем они отличаются и почему нужно измерять стандартную ошибку?
Я изо всех сил пытаюсь понять разницу между стандартной ошибкой и стандартным отклонением. Чем они отличаются и почему нужно измерять стандартную ошибку?
Ответы:
Чтобы завершить ответ на вопрос, Ocram хорошо рассмотрел стандартную ошибку, но не сравнил ее со стандартным отклонением и не упомянул зависимость от размера выборки. В качестве частного случая для оценки рассмотрим выборку среднего. Стандартная ошибка для среднего значения - это где σстандартное отклонение населения. Таким образом, в этом примере мы ясно видим, как стандартная ошибка уменьшается с увеличением размера выборки. Стандартное отклонение чаще всего используется для обозначения отдельных наблюдений. Таким образом, стандартное отклонение описывает изменчивость отдельных наблюдений, в то время как стандартная ошибка показывает изменчивость оценки. Хорошие оценки непротиворечивы, что означает, что они сходятся к истинному значению параметра. Когда их стандартная ошибка уменьшается до 0 при увеличении размера выборки, оценки согласуются, что в большинстве случаев происходит потому, что стандартная ошибка становится равной 0, как мы явно видим со средним значением выборки.
Вот более практичный (а не математический) ответ:
Обратите внимание, что стандартные ошибки могут быть вычислены практически для любого параметра, который вы вычисляете по данным, а не только по среднему значению. Фраза «стандартная ошибка» немного двусмысленна. Приведенные выше пункты относятся только к стандартной ошибке среднего.
(Из Руководства по статистике GraphPad, которое я написал.)
(обратите внимание, что я сосредотачиваюсь на стандартной ошибке среднего значения, что, как я полагаю, задавал вопрос также, но вы можете генерировать стандартную ошибку для любой выборочной статистики)
Стандартная ошибка связана со стандартным отклонением, но это не одно и то же, и увеличение размера выборки не сближает их. Скорее, это делает их дальше друг от друга. Стандартное отклонение выборки становится ближе к стандартному отклонению популяции по мере увеличения размера выборки, но не стандартной ошибки.
Иногда терминология вокруг этого немного сложна.
Когда вы собираете выборку и вычисляете стандартное отклонение этой выборки, по мере увеличения размера выборки оценка стандартного отклонения становится все более и более точной. Судя по твоему вопросу, именно об этом ты и думал. Но также учтите, что среднее значение выборки, как правило, ближе к среднему значению для населения. Это важно для понимания стандартной ошибки.
Стандартная ошибка заключается в том, что произойдет, если вы получите несколько образцов заданного размера. Если вы берете выборку из 10, вы можете получить некоторую оценку среднего значения. Затем вы берете другую выборку из 10 и новую среднюю оценку, и так далее. Стандартное отклонение средних значений этих образцов является стандартной ошибкой. Учитывая, что вы задали свой вопрос, вы, вероятно, теперь можете видеть, что, если N велико, тогда стандартная ошибка меньше, поскольку средние значения выборок с меньшей вероятностью будут сильно отклоняться от истинного значения.
Для некоторых это звучит как-то чудесно, учитывая, что вы рассчитали это по одной выборке. Итак, что вы можете сделать - это загрузить стандартную ошибку с помощью симуляции, чтобы продемонстрировать взаимосвязь. В R это будет выглядеть так:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Вы обнаружите, что эти две последние команды генерируют одно и то же число (приблизительно). Вы можете изменять значения n, m и s, и они всегда будут довольно близко друг к другу.