Что такое стандартное отклонение, как оно рассчитывается и как его использовать в статистике?
Что такое стандартное отклонение, как оно рассчитывается и как его использовать в статистике?
Ответы:
Стандартное отклонение - это число, которое представляет «разброс» или «разброс» набора данных. Существуют и другие меры для распространения, такие как диапазон и дисперсия.
Вот несколько примеров наборов данных и их стандартные отклонения:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Приведенные выше наборы данных имеют одинаковое среднее значение.
Отклонение означает «расстояние от среднего».
«Стандарт» здесь означает «стандартизированный», что означает стандартное отклонение и среднее значение в тех же единицах, в отличие от дисперсии.
Например, если средняя высота составляет 2 метра , стандартное отклонение может составлять 0,3 метра , тогда как отклонение составит 0,09 метра в квадрате .
Удобно знать, что, по крайней мере, 75% точек данных всегда лежат в пределах 2 стандартных отклонений от среднего значения (или около 95%, если распределение нормальное).
Например, если среднее значение равно 100, а стандартное отклонение равно 15, то по меньшей мере 75% значений находятся в диапазоне от 70 до 130.
Если распределение оказывается нормальным, то 95% значений находятся между 70 и 130.
Вообще говоря, баллы IQ-теста обычно распределяются и в среднем равны 100. У кого-то, кто «очень яркий», на два стандартных отклонения выше среднего значения, то есть балл по IQ-тесту 130.
Цитата из Википедии .
Он показывает, насколько сильно отличается от «среднего» (среднего или ожидаемого / заложенного в бюджет значения). Низкое стандартное отклонение указывает, что точки данных имеют тенденцию быть очень близкими к среднему значению, в то время как высокое стандартное отклонение указывает, что данные разбросаны по большому диапазону значений.
При описании переменной мы обычно суммируем ее, используя две меры: меру центра и меру разброса. Общие меры центра включают среднее значение, медиану и моду. Распространенная мера распространения включает дисперсию и межквартильный диапазон.
Дисперсия (представленная греческой строчной сигмой, возведенной в степень два) обычно используется, когда сообщается среднее значение. Дисперсия - это среднеквадратичное отклонение переменной. Отклонение рассчитывается путем вычитания среднего значения из каждого наблюдения. Это квадрат, потому что в противном случае сумма была бы равна нулю, а квадрат устраняет эту проблему, сохраняя относительный размер отклонений. Проблема использования вариации в качестве меры разброса заключается в том, что она выражена в квадратах. Например, если нашей переменной интереса была высота, измеренная в дюймах, тогда дисперсия будет сообщаться в квадратах, что не имеет большого смысла. Стандартное отклонение (представленное греческой строчной сигмой) является квадратным корнем дисперсии и возвращает меру разброса к исходным единицам.
При использовании стандартного отклонения нужно быть осторожным с выбросами, поскольку они будут искажать стандартное отклонение (и среднее значение), поскольку они не являются устойчивыми мерами разброса. Простой пример проиллюстрирует это свойство. Среднее значение моих ужасных показателей в крикет 13, 14, 16, 23, 26, 28, 33, 39 и 61 составляет 28,11. Если мы считаем 61 выбросом и удаляем его, среднее значение будет 24.
Вот как я бы ответил на этот вопрос, используя диаграмму.
Допустим, мы весим 30 кошек и вычисляем средний вес. Затем мы создаем график рассеяния с весом по оси Y и идентификатором Cat по оси X. Средний вес можно изобразить в виде горизонтальной линии. Затем мы можем нарисовать вертикальные линии, которые соединяют каждую точку данных со средней линией - это отклонения каждой точки данных от средней, и мы называем их невязками. Теперь эти остатки могут быть полезны, потому что они могут рассказать нам кое-что о распространении данных: если есть много больших остатков, то кошки сильно различаются по массе. И наоборот, если остатки в основном небольшие, то кошки довольно тесно сгруппированы вокруг среднего веса. Так что, если бы мы могли иметь некоторую метрику, которая говорит нам среднеедлина остатка в этом наборе данных, это был бы удобный способ указать, насколько разброс в данных. Стандартное отклонение представляет собой длину среднего остатка.
Я хотел бы продолжить с этого, давая расчет для sd, объясняя, почему мы квадратный, а затем квадратный корень (мне нравится краткое и приятное объяснение Вайбхава). Тогда я бы упомянул проблемы выбросов, как это делает Грэм в своем последнем абзаце.
Если необходимая информация представляет собой распределение данных о среднем значении, пригодится стандартное отклонение.
Сумма разности каждого значения от среднего равна нулю (очевидно, поскольку значение равномерно распределено вокруг среднего), поэтому мы возводим в квадрат каждую разницу, чтобы преобразовать отрицательные значения в положительные, суммировать их по совокупности и взять их квадратный корень. Затем это значение делится на количество выборок (или размер популяции). Это дает стандартное отклонение.
Стандартное отклонение - это квадратный корень второго центрального момента распределения. Центральным моментом является ожидаемое отличие от ожидаемого значения распределения. Первый центральный момент обычно равен 0, поэтому мы определяем второй центральный момент как ожидаемое значение квадрата расстояния случайной величины от ее ожидаемого значения.
Чтобы поставить его в масштабе, который больше соответствует исходным наблюдениям, мы берем квадратный корень этого второго центрального момента и называем его стандартным отклонением.
Стандартное отклонение является свойством населения. Он измеряет, насколько средняя «дисперсия» существует для этой популяции. Все наблюдения сосредоточены вокруг среднего значения или они широко распространены?
Чтобы оценить стандартное отклонение популяции, мы часто вычисляем стандартное отклонение «выборки» от этой популяции. Для этого вы берете наблюдения из этой совокупности, вычисляете среднее значение этих наблюдений, а затем вычисляете квадратный корень из среднего квадрата отклонения от этого «среднего по выборке».
Чтобы получить объективную оценку дисперсии, вы фактически не вычисляете среднеквадратичное отклонение от среднего значения по выборке, а вместо этого делите на (N-1), где N - количество наблюдений в вашей выборке. Обратите внимание, что это «стандартное отклонение выборки» не является объективной оценкой стандартного отклонения, а квадрат «стандартного отклонения выборки» является объективной оценкой дисперсии совокупности.
Лучший способ понять стандартное отклонение - подумать о парикмахере! (Вам нужно собрать данные из парикмахера и оценить ее скорость стрижки, чтобы этот пример работал.)
Парикмахеру требуется в среднем 30 минут, чтобы подстричь волосы.
Предположим, вы выполняете расчет (большинство программных пакетов сделают это за вас), и вы обнаружите, что стандартное отклонение составляет 5 минут. Это означает следующее:
Откуда я это знаю? Вам нужно взглянуть на нормальную кривую, где 68% находится в пределах 1 стандартного отклонения, а 96% - в пределах 2 стандартных отклонений от среднего значения (в данном случае 30 минут). Таким образом, вы добавляете или вычитаете стандартное отклонение от среднего значения.
Если требуется согласованность, как в этом случае, чем меньше стандартное отклонение, тем лучше. В этом случае парикмахер тратит максимум 40 минут на каждого конкретного клиента. Вам нужно быстро постричься, чтобы запустить успешный салон!