Если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?


11

Я создал гистограмму для возраста респондента и сумел получить очень хороший колоколообразный изгиб, из которого я пришел к выводу, что распределение нормальное.

Затем я выполнил тест нормальности в SPSS, с n = 169. Значение p (Sig.) Теста Колмогорова-Смирнова меньше 0,05, и поэтому данные нарушили предположение о нормальности.

Почему тест показывает, что распределение по возрасту не является нормальным, но гистограмма показала колоколообразную кривую, что, на мой взгляд, нормально? Какой результат я должен следовать?


8
Почему вы проверяете нормальность?
Glen_b

6
В дополнение к отличному комментарию @ Glen_b и столь же превосходному ответу Аксакала , обратите внимание, что даже для непрерывных распределений KS требует, чтобы среднее значение и sd были известны заранее , а не оценивались по данным. По сути, это делает тест KS бесполезным. «Тест Колмогорова-Смирнова - только историческое любопытство. Он никогда не должен использоваться». (Агостино в Агостино и Стивенс, ред., 1986). Если вообще, используйте вместо этого Shapiro-Wilks.
Стефан Коласса

6
@ Стефан Коласса Хороший совет, но вы имеете в виду Шапиро-Вилк. (Предложения М.Б. Уилка и С.С. Уилкса часто путают или смешивают; странное использование здесь как притяжательного в английском языке также может способствовать путанице, даже для многих, у которых английский является родным языком.)
Ник Кокс,

2
В связи с комментарием @StephanKolassa, см. Является ли Шапиро-Уилк лучшим тестом на нормальность? ... ответ заключается в том, что это не обязательно, в зависимости от того, какая альтернатива вас интересует, но очень часто это хороший выбор.
Серебряная рыба

Ответы:


34

Мы обычно знаем, что невозможно, чтобы переменная была точно нормально распределена ...

Нормальное распределение имеет бесконечно длинные хвосты, простирающиеся в обоих направлениях - вряд ли данные будут лежать далеко в этих крайностях, но для истинного нормального распределения это должно быть физически возможно. Для возрастов нормально распределенная модель будет предсказывать, что существует ненулевая вероятность того, что данные лежат на 5 стандартных отклонений выше или ниже среднего значения, что соответствует физически невозможным возрастам, таким как ниже 0 или выше 150. (Хотя, если вы посмотрите на пирамида населения , это не понятно , почему можно было бы ожидать возраст даже приблизительно нормально распределены в первую очередь.) Точно так же , если у вас высот данные, которые интуитивно может следовать более «нормальный, как» распределение, это может быть только по- настоящему нормально, если есть вероятность высоты ниже 0 см или выше 300 см.

Я иногда видел, что это наводит на мысль, что мы можем избежать этой проблемы, центрировав данные так, чтобы они имели среднее значение ноль. Таким образом возможны как положительные, так и отрицательные «центрированные возрасты». Но хотя это делает как отрицательные значения физически правдоподобными, так и интерпретируемыми (отрицательные центрированные значения соответствуют фактическим значениям, лежащим ниже среднего значения), проблема не сводится к тому, что нормальная модель будет производить физически невозможные прогнозы с ненулевой вероятностью, как только вы декодируйте смоделированный «центрированный возраст» обратно до «фактического возраста».

... так зачем тестировать? Даже если не точно, нормальность все еще может быть полезной моделью

Важный вопрос на самом деле не в том, являются ли данные в точности нормальными - мы знаем a priori, что в большинстве случаев не может быть так, даже без проверки гипотезы, - а в том , достаточно ли приближено приближение для ваших нужд. Видите вопрос, тестирование нормальности по сути бесполезно? Нормальное распределение является удобным приближением для многих целей. Это редко "правильно" - но, как правило, не обязательно должно быть правильно, чтобы быть полезным. Я ожидаю, что нормальное распределение обычно будет разумной моделью для роста людей, но для нормального распределения понадобится более необычный контекст, чтобы иметь смысл как модель возраста людей.

Если вы действительно чувствуете необходимость проведения теста на нормальность, то Колмогоров-Смирнов, вероятно, не лучший вариант: как отмечается в комментариях, доступны более мощные тесты. Шапиро-Вилк обладает хорошей силой против целого ряда возможных альтернатив и обладает тем преимуществом, что вам не нужно заранее знать истинное среднее значение и дисперсию . Но имейте в виду, что в небольших выборках потенциально довольно большие отклонения от нормальности могут все еще оставаться незамеченными, в то время как в больших выборках даже очень малые (и для практических целей, не относящиеся к делу) отклонения от нормальности могут проявляться как «очень значимые» (низкий уровень р -значение).

«Колоколообразный» не обязательно нормальный

Кажется, вам сказали думать о «колоколообразных» данных - симметричных данных, которые имеют пики в середине и которые имеют меньшую вероятность в хвостах - как «нормальные». Но нормальное распределение требует определенной формы для своего пика и хвостов. Существуют и другие дистрибутивы с похожей формой на первый взгляд, которые вы также можете охарактеризовать как «колоколообразные», но которые не являются нормальными. Если у вас нет большого количества данных, вы вряд ли сможете различить, что «это похоже на готовый дистрибутив, но не похож на остальные». И если у вас есть много данных, вы , вероятно , найти это не выглядит совсем как любое распределение «вне-полка» на всех! Но в этом случае для многих целей вы

Галерея "колоколообразных" раздач

Нормальное распределение является «колокол форма» вы привыкли; Коши имеют пик острее и «тяжелее» (т.е. содержащие больше вероятности) хвосты; т распределение с 5 степенями свободы приходит где - то между ними (нормаль т с бесконечным ДФ и Коши т с 1 ДФ, так что имеет смысл); экспоненциальное распределение Лапласа или двойной имеет PDF образован из двух перемасштабирована экспоненциального распределения спина к спине, в результате чего в пике острее , чем нормальное распределение; бета - распределениесовсем другой - у него нет, например, хвостов, уходящих в бесконечность, вместо этого он имеет резкие обрезки - но он все еще может иметь форму «горба» в середине. На самом деле, играя с параметрами, вы также можете получить своего рода «перекошенный горб» или даже форму «U» - галерея на связанной странице Википедии весьма поучительна относительно гибкости этого дистрибутива. Наконец, треугольное распределение - это еще одно простое распределение на конечной опоре, часто используемое в моделировании рисков.

Вполне вероятно, что ни одно из этих распределений точно не описывает ваши данные, и существует очень много других распределений с похожими формами, но я хотел бы рассмотреть ошибочное представление, которое «горбатое в середине и примерно симметричное означает нормальное». Поскольку существуют физические ограничения на данные о возрасте, если ваши данные о возрасте «сгорели» в середине, то все еще возможно распределение с конечной поддержкой, такой как бета-версия, или даже треугольное распределение, может оказаться лучшей моделью, чем модель с бесконечными хвостами, как нормальная. Обратите внимание, что даже если ваши данные действительно были нормально распределены, ваша гистограмма вряд ли будет напоминать классический «колокол», если размер выборки не достаточно велик. Даже образец из дистрибутива типа Лапласа, чей pdf явно отличается от нормального из-за его острого выступа,

Нормальные образцы и образцы Лапласа различных размеров.

Код R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

Возраст не может быть из нормального распределения. Думайте логически: у вас не может быть отрицательного возраста, но нормальное распределение допускает отрицательные числа.

Есть много колоколообразных распределений там. Если что-то выглядит в форме колокола, это не значит, что оно должно быть нормальным.

Невозможно точно узнать что-либо в статистике, в том числе, из какого источника поступают данные. Форма подсказка: форма колокола является одним из аргументов в пользу нормального распределения. Кроме того, понимание ваших данных очень важно. Переменная, такая как возраст, часто искажается, что исключает нормальность. Как уже упоминалось, нормальное распределение не имеет границ, но иногда оно используется для ограниченных переменных. Например, если средний возраст составляет 20 лет, а стандартное отклонение равно 1, то вероятность возраста <17 или> 23 составляет менее 0,3%. Таким образом, возможно, что нормальное распределение может быть хорошим приближением .

Вы можете попробовать запустить статистический тест на нормальность, такой как Jarque-Bera, который учитывает асимметрию и эксцесс образца. Куртоз может быть важным в некоторых случаях. Это очень важно в финансах, потому что, если вы моделируете данные с нормальным распределением, но на самом деле данные взяты из неуклюжего распределения, вы можете в итоге недооценивать риски и цены активов.

Это поможет вам сообщить некоторую описательную статистику или гистограмму данных о вашем возрасте и росте, таких как среднее значение, дисперсия, асимметрия, эксцесс.


Спасибо за вашу помощь, можете ли вы сказать мне, как узнать, что определенные данные поступают из нормального распределения, например, в вашем ответе указано, что возраст не может быть из нормального распределения, как насчет других данных, таких как рост. Каковы критерии, которые я должен знаю. я хочу узнать больше об этом, потому что кажется, что я неправильно понял концепцию, так как я новичок в этом. Еще раз спасибо.
NoraNorad

4
Тем не менее, нормальное распределение часто является используются в качестве приближения для таких переменных , как возраст. И это на самом деле не проблема, поскольку вы можете определить age_centredкак age - mean(age)и у вас есть переменная со средним 0, с некоторыми стандартными отклонениями, положительными и отрицательными значениями. Так что я не буду так строг в этом.
Тим

3
Вы также не можете иметь отрицательный рост для людей, но для меня это не будет препятствием для описания роста как нормального распределения, если это хорошее приближение. В связи с этим, зачем использовать любое распределение с бесконечными границами для измерений, которые могут быть только конечными? Как говорит @Tim, все дело в аппроксимациях, приемлемых с учетом данных и заданной цели.
Ник Кокс

1
Я согласен, что нормальное распределение иногда может быть хорошим приближением для ограниченных данных, но вопрос был о том, являются ли данные нормальными или нет.
Аксакал

Возраст окончания старших классов средней школы потенциально может быть нормально распределен, а также принимать отрицательные значения, если среднее значение центрировано, как упомянуто @Tim.
ui_90jax
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.