Какие тесты я использую, чтобы подтвердить, что остатки нормально распределены?

У меня есть некоторые данные, которые выглядят из графика зависимости остатков от времени почти нормально, но я хочу быть уверен. Как я могу проверить нормальность ошибок?

hypothesis-testing normal-distribution assumptions

— Pb1
источник

Тесно связаны: соответствующие тесты нормальности для малых образцов . Вот пара других вопросов, которые могут представлять интерес: тестирование нормальности, по сути, бесполезное , для обсуждения ценности тестирования нормальности, и что, если остатки нормально распределены, но у них есть нет , для обсуждения / уточнения смысла, в котором нормальность является допущением линейной модели.

— gung - Восстановить Монику

Можно увидеть очень распространенное недопонимание сути теста Шапиро Уилка! Правильный смысл в пользу H0 заключается в том, что H0 нельзя отклонить, но ОСТОРОЖНО! Это не означает автоматически, что «данные распределяются нормально» !!! Альтернативный результат - «Данные обычно не распространяются».

— Джо Халленбек

Ответы:

Ни один тест не скажет вам, что ваши остатки обычно распределяются. На самом деле можно с уверенностью поспорить, что это не так .
Проверка гипотез, как правило, не является хорошей идеей, поскольку проверка ваших предположений. Эффект ненормальности на ваших умозаключениях обычно не зависит от размера выборки *, но результат теста значимости является . Небольшое отклонение от нормальности будет очевидно при большом размере выборки, даже если ответ на вопрос о реальном интересе («в какой степени это повлияло на мои выводы?») Может быть «едва ли вообще». Соответственно, большое отклонение от нормы при небольшом размере выборки может не приблизиться к значимости.

* (добавлено в редактировании) - на самом деле это слишком слабое утверждение. Влияние ненормальности фактически уменьшается с размером выборки практически в любое время, когда CLT и теорема Слуцкого будут выполняться, в то время как способность отклонять нормальность (и, по-видимому, избегать процедур с нормальной теорией) возрастает с размером выборки ... так просто, когда вы в наибольшей степени способны идентифицировать ненормальность, как правило, когда это не имеет значения любом случае ... и тест не помогает, когда он действительно имеет значение, в небольших выборках. $^\dagger$

$\dagger$ ну, по крайней мере, насколько уровень значимости идет. Мощность все еще может быть проблемой, хотя, если мы рассматриваем большие выборки, как здесь, это может быть меньше проблемы.
Что ближе к измерению величины эффекта, так это некоторая диагностика (отображение или статистика), которая каким-то образом измеряет степень ненормальности. График QQ является очевидным отображением, и график QQ для одной и той же совокупности при одном размере выборки и при другом размере выборки представляют собой, по меньшей мере, обе оценки с шумом одной и той же кривой - демонстрирующие примерно одинаковую «ненормальность»; оно должно быть, по крайней мере, приблизительно монотонно связано с желаемым ответом на интересующий вопрос.

Если вам нужно использовать тест, Shapiro-Wilk, вероятно, примерно так же хорош, как и все остальное (тест Chen-Shapiro обычно немного лучше на альтернативах, представляющих общий интерес, но труднее найти реализации), но он отвечает на вопрос, который вы уже знаю ответ на; каждый раз, когда вы не можете отказаться, он дает ответ, который вы можете быть уверены, что это неправильно.

— Glen_b - Восстановить Монику
источник

+1 Glen_b, потому что вы делаете несколько хороших замечаний. Однако я бы не стал так негативно относиться к использованию тестов на пригодность. Когда размер выборки небольшой или умеренный, тест не будет иметь достаточной мощности, чтобы обнаружить небольшие отклонения от нормального распределения. Очень большие различия могут привести к очень маленьким значениям p (например, 0,0001 или ниже). Это может быть более формальным признаком, чем визуальное наблюдение за графиком qq, но все же очень полезно. Можно также посмотреть на оценки асимметрии и эксцесса. Именно в очень больших образцах тесты на пригодность являются проблематичными.

— Майкл Р. Черник

В этих случаях небольшие отклонения будут обнаружены. Пока аналитик признает, что на практике распределение населения будет не совсем нормальным, а отказ от нулевой гипотезы просто говорит ему, что его распределение немного ненормально, он не будет сбиваться с пути. Затем следователь должен сам решить, является ли допущение нормальности проблемой или нет с учетом незначительного отклонения, которое обнаруживает тест. Шапиро-Уилк на самом деле является одним из наиболее мощных тестов против гипотезы нормальности.

— Майкл Р. Черник

+1, мне особенно нравится пункт № 2; в этой связи стоит отметить, что даже если перекос или эксцесс довольно плохой, с действительно большим N, центральная предельная теорема покроет вас, так что это время, когда вам меньше всего нужна нормальность.

— gung - Восстановить Монику

@ gung есть некоторые обстоятельства, когда хорошее приближение к нормальности будет иметь значение. Например, при построении интервалов прогнозирования используются нормальные предположения. Но я бы все-таки больше полагался на диагностику (которая показывает, насколько она ненормальная), чем на тест

— Glen_b -Reinstate Monica

Ваша точка зрения относительно интервалов прогнозирования является хорошей.

— gung - Восстановить Монику

Тест Шапиро-Уилка - одна из возможностей.

Тест Шапиро-Вилка

Этот тест реализован практически во всех статистических программных пакетах. Нулевая гипотеза состоит в том, что остатки обычно распределены, поэтому небольшое значение p указывает, что вы должны отклонить нулевое значение и сделать вывод, что остатки обычно не распределены.

Обратите внимание, что если размер вашей выборки велик, вы почти всегда отклоняете ее, поэтому визуализация остатков важнее.

— лощина
источник

Это "Вилк", а не "Вилкс".

— Майкл Р. Черник

Из википедии:

Тесты одномерной нормальности включают в себя критерий К-квадрата Д'Агостино, тест Жарка-Бера, тест Андерсона-Дарлинга, критерий Крамера-фон Мизеса, критерий Лилифорса для нормальности (сам по себе является адаптацией теста Колмогорова-Смирнова), Критерий Шапиро – Вилка, критерий хи-квадрат Пирсона и критерий Шапиро-Франсия. В статье 2011 года, опубликованной в «Журнале статистического моделирования и аналитики» [1], делается вывод о том, что Шапиро-Уилк обладает наилучшей силой для данного значения, а за ним внимательно следят Андерсон-Дарлинг при сравнении Шапиро-Уилка, Колмогорова-Смирнова, Лиллифорса и Андерсона. Дорогая тесты.

— Тейлор
источник

-1: Вы можете включить ссылку на страницу Википедии, удалить сноску («[1]») и использовать функцию цитаты.

— Бернд Вайс,

Предостережение, которое дает Glen_b, важно иметь в виду, когда используется какой-либо из этих качественных тестов соответствия. Я думаю, что результат, который вы цитируете о Шапиро-Уилке, не такой общий, как вы его представляете. Я не верю, что существует самый мощный в мире тест на нормальность.

— Майкл Р. Черник

n \geq 1

$n \ge 1$

@GregSnow У меня нет времени, чтобы тщательно просмотреть вашу посылку, и, возможно, я не достаточно опытен с R, чтобы следить за всем. Вы говорите, что существует самый мощный в мире тест на нормальность, или вы говорите, что приводите примеры, показывающие, когда различные тесты наиболее эффективны и, следовательно, что глобальный тест не существует. У меня есть сомнения, что он существует, и я не думаю, что Шапиро-Уилк был бы им. Если вы утверждаете, что он существует, я хотел бы увидеть математическое доказательство или ссылку на него.

— Майкл Р. Черник

@MichaelChernick, я утверждаю, что мой тест будет иметь столько же или больше мощности (с той или иной вероятностью отклонить нулевую гипотезу данных, поступающих из точной нормали), как и любой другой тест нормальности. Код R несложно следовать, основной код для вычисления p-значения - «tmp.p <- если (любой (is.rational (x))) {0», доказательство его мощности должно быть очевидным ( Я только утверждал, что он мощный и документация может быть полезной, но не сам тест полезен, Google для «афоризма Кокрейна»).

— Грег Сноу