Ответы:
Предположение о нормальности - это просто предположение о том, что базовая случайная величина, представляющая интерес, распределена нормально или приблизительно так. Интуитивно понятно, что нормальность можно понимать как результат суммы большого количества независимых случайных событий.
Более конкретно, нормальные распределения определяются следующей функцией:
где и - среднее значение и дисперсия, соответственно, и которое выглядит следующим образом:
Это можно проверить несколькими способами , которые могут в большей или меньшей степени соответствовать вашей проблеме по своим функциям, таким как размер n. По сути, все они проверяют наличие ожидаемых признаков, если распределение было нормальным (например, ожидаемое квантильное распределение ).
Одно замечание: предположение о нормальности часто НЕ связано с вашими переменными, а с ошибкой, которая оценивается остатками. Например, в линейной регрессии ; нет предположения, что нормально распределен, только то, что есть.
Связанный с этим вопрос можно найти здесь о нормальном допущении ошибки (или в более общем плане данных , если у нас нет предварительных знаний о данных).
В основном,
Отсюда следует важное замечание, что, как говорит здесь Теренс Тао : «Грубо говоря, эта теорема утверждает, что если взять статистику, которая представляет собой комбинацию множества независимых и случайно колеблющихся компонентов, то есть ни один компонент не оказывает решающего влияния на целое тогда эта статистика будет приблизительно распределена в соответствии с законом, называемым нормальным распределением ».
Чтобы сделать это понятным, позвольте мне написать фрагмент кода Python
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
Как видно из рисунков, полученное распределение (сумма) стремится к нормальному распределению независимо от отдельных типов распределения. Таким образом, если у нас недостаточно информации о базовых эффектах в данных, предположение о нормальности является разумным.
Вы не можете знать, есть ли нормальность, и поэтому вы должны сделать предположение, что это там. Вы можете доказать отсутствие нормальности только с помощью статистических тестов.
Еще хуже, когда вы работаете с данными реального мира, почти наверняка нет истинной нормальности в ваших данных.
Это означает, что ваш статистический тест всегда немного предвзят. Вопрос в том, можете ли вы жить с его предвзятостью. Чтобы сделать это, вы должны понимать ваши данные и тип нормальности, который предполагает ваш статистический инструмент.
Это причина, по которой инструменты Frequentist так же субъективны, как и байесовские инструменты. Вы не можете определить, основываясь на данных, которые обычно распространяются. Вы должны принять нормальность.
Предположение о нормальности предполагает, что ваши данные нормально распределены (кривая колокола или гауссово распределение). Вы можете проверить это, нанося данные на график или проверяя показатели для эксцесса (насколько резок пик) и асимметрии (?) (Если более половины данных находится на одной стороне пика).
Другие ответы охватили, что такое нормальность, и предложили методы тестирования нормальности. Кристиан подчеркнул, что на практике совершенной нормальности практически не существует.
Я подчеркиваю, что наблюдаемое отклонение от нормы не обязательно означает, что методы, предполагающие нормальность, могут не использоваться, и тест на нормальность может быть не очень полезным.
Чтобы добавить к ответам выше: «Предположение о нормальности» заключается в том, что в модели термин «остаток» обычно распределен. Это предположение (как я ANOVA) часто идет с некоторыми другими: 2) дисперсия of постоянна, 3) независимость наблюдений.
Из этих трех предположений, 2) и 3) в основном значительно важнее, чем 1)! Таким образом, вы должны больше заниматься ими. Джордж Бокс сказал что-то вроде: «Провести предварительный тест на отклонения - это все равно, что выйти в море на гребной лодке, чтобы выяснить, достаточно ли спокойны условия для выхода океанического лайнера из порта!» - [Box, «Non -нормальность и тесты на дисперсии ", 1953, Биометрика 40, с. 318-335]"
Это означает, что неравные отклонения вызывают серьезную обеспокоенность, но на самом деле их тестирование очень сложно, потому что на тесты влияет ненормальность, настолько мала, что это не имеет значения для испытаний средств. Сегодня существуют непараметрические тесты на неравные отклонения, которые НЕОБХОДИМО использовать.
Короче, сначала займись собой неравными отклонениями, потом нормальностью. Когда вы составите свое мнение о них, вы можете думать о нормальности!
Вот много полезных советов: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt