Почему вы должны проверить на нормальность?
Стандартное допущение в линейной регрессии состоит в том, что теоретические остатки независимы и нормально распределены. Наблюдаемые невязки являются оценкой теоретических невязок, но не являются независимыми (существуют невязки, которые устраняют некоторую зависимость, но все же дают только приближение истинных невязок). Таким образом, проверка наблюдаемых остатков не гарантирует совпадения теоретических остатков.
Если теоретические остатки распределены не совсем нормально, но размер выборки достаточно велик, то Центральная предельная теорема говорит, что обычный вывод (тесты и доверительные интервалы, но не обязательно интервалы прогнозирования), основанные на допущении нормальности, все равно будет приблизительно верным ,
Также обратите внимание, что тесты нормальности являются тестами исключения, они могут сказать вам, что данные вряд ли поступили из нормального распределения. Но если тест несущественный, это не означает, что данные поступили из нормального распределения, это также может означать, что у вас просто недостаточно мощности, чтобы увидеть разницу. Большие размеры выборки дают больше возможностей для обнаружения ненормальности, но большие выборки и CLT означают, что ненормальность наименее важна. Таким образом, для небольших размеров выборки допущение нормальности важно, но тесты не имеют смысла, для больших размеров выборки тесты могут быть более точными, но вопрос точной нормальности становится бессмысленным.
Таким образом, комбинируя все вышеперечисленное, более важным, чем проверка точной нормальности, является понимание науки, лежащей в основе данных, чтобы увидеть, достаточно ли близка популяция к нормальной. Графики типа qqplots могут быть хорошей диагностикой, но также необходимо понимание науки. Если есть опасения, что существует слишком большая асимметрия или потенциал для выбросов, то доступны непараметрические методы, которые не требуют предположения о нормальности.