В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова?

В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова? Когда результаты этих двух методов будут отличаться?

— russellpierce
источник

Ответы:

Вы не можете даже сравнить два, так как Колмогоров-Смирнов для полностью определенного распределения (поэтому, если вы проверяете нормальность, вы должны указать среднее значение и дисперсию; их нельзя оценить по данным *), в то время как Шапиро-Вилк для нормальности, с неопределенным средним и дисперсией.

* вы также не можете стандартизировать, используя оценочные параметры и тест на стандартную нормаль; это на самом деле то же самое.

Одним из способов сравнения было бы дополнить Shapiro-Wilk тестом для указанного среднего значения и дисперсии в нормали (каким-то образом комбинируя тесты), или с помощью таблиц KS, скорректированных для оценки параметров (но тогда это больше не является распределением). -свободный).

Существует такой тест (эквивалент Колмогорова-Смирнова с оценочными параметрами) - тест Лиллифорса; версию теста нормальности можно было бы сравнить с Шапиро-Вилком (и, как правило, она будет иметь меньшую мощность). Более конкурентоспособным является тест Андерсона-Дарлинга (который также должен быть скорректирован для оценки параметров, чтобы сравнение было достоверным).

Что касается того, что они тестируют - тест KS (и Lilliefors) смотрит на наибольшую разницу между эмпирическим CDF и заданным распределением, в то время как Shapiro Wilk эффективно сравнивает две оценки дисперсии; тесно связанный Шапиро-Франсия можно рассматривать как монотонную функцию квадрата корреляции на графике QQ; если я правильно помню, Шапиро-Уилк также учитывает ковариации между статистикой заказов.

Отредактировано, чтобы добавить: Хотя Шапиро-Уилк почти всегда побеждает тест Лиллифорса на интересующих альтернативах, примером, где это не так, является в средних и больших выборках ( ). Там Lilliefors обладает большей силой. $t_{30}$ $n>60$

[Следует иметь в виду, что существует гораздо больше тестов на нормальность, чем эти.]

— Glen_b - Восстановить Монику
источник

Это интересный ответ, но у меня возникли небольшие проблемы с пониманием того, как это согласовать с практикой. Возможно, это должны быть разные вопросы, но каковы последствия игнорирования оценки параметров в тесте KS? Означает ли это, что тест Лиллефорса имеет меньшую мощность, чем неправильно проведенный KS, в котором паретеры оценивались по данным?

— Russellpierce

@rpierce - Основным результатом обработки оценочных параметров как известных является резкое понижение фактического уровня значимости (и, следовательно, кривой мощности) по сравнению с тем, каким он должен быть, если принять во внимание его (как это делает Lilliefors). То есть Lilliefors - это KS, «сделанный правильно» для оценки параметров, и он имеет значительно лучшую мощность, чем KS. С другой стороны, сила Лиллифорса намного хуже, чем, скажем, тест Шапиро-Уилка. Короче говоря, KS не является особенно мощным тестом для начала, и мы ухудшаем его, игнорируя то, что мы проводим оценку параметров.

— Glen_b

... имея в виду, когда мы говорим «лучшая сила» и «худшая сила», мы обычно имеем в виду власть против того, что люди обычно считают интересными альтернативами.

— Glen_b

Я видел кривую власти, я просто не думал о том, что будет означать ее понижение или повышение, и вместо этого Бог продолжил свой второй комментарий: «помнить». Каким-то образом я обернулся и подумал, что вы говорите, что «лучшая» мощность означает наличие кривой мощности там, где она «должна» быть. Что, возможно, мы обманывали и получали нереальную власть в KS, потому что мы передавали ему параметры, которые должны были быть оштрафованы за оценку (потому что это то, к чему я привык, потому что я не признавал, что параметр исходит из оценки) ,

— Russellpierce

Не уверен, как я пропустил эти комментарии раньше, но да, вычисленные значения р от использования теста KS с оценочными параметрами, как если бы они были известны / определены, будут иметь тенденцию быть слишком высокими. Попробуйте это в R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))- если бы значения p были такими, какими они должны быть, это выглядело бы одинаково!

— Glen_b

Вкратце, тест Шапиро-Уилка является специфическим тестом на нормальность, тогда как метод, используемый тестом Колмогорова-Смирнова, является более общим, но менее мощным (то есть он реже отвергает нулевую гипотезу нормальности). Обе статистические данные принимают нормальность за ноль и устанавливают тестовую статистику на основе выборки, но то, как они это делают, отличается друг от друга способами, которые делают их более или менее чувствительными к функциям нормальных распределений.

Как именно рассчитывается W (тестовая статистика для Шапиро-Уилка), немного сложновато , но концептуально это включает в себя массив значений выборки по размеру и измерение соответствия ожидаемым средним, дисперсиям и ковариациям. Эти множественные сравнения с нормальностью, насколько я понимаю, дают тесту большую мощность, чем тест Колмогорова-Смирнова, и это один из способов, которым они могут отличаться.

В отличие от этого, критерий Колмогорова-Смирнова для нормальности получен из общего подхода к оценке пригодности путем сравнения ожидаемого совокупного распределения с эмпирическим совокупным распределением, с учетом:

альтернативный текст

Как таковой, он чувствителен в центре распределения, а не в хвостах. Однако тест KS является сходящимся в том смысле, что при стремлении n к бесконечности тест сходится к истинному ответу по вероятности (я считаю, что здесь применима теорема Гливенко-Кантелли , но кто-то может исправить меня). Это еще два способа, которыми эти два теста могут отличаться в своей оценке нормальности.

— Джон Л. Тейлор
источник

Кроме того ... критерий Шапиро-Уилка часто используется при оценке отклонений от нормы в небольших выборках. Отличный ответ, Джон! Спасибо.

— aL3xa

+1, два других замечания о KS: его можно использовать для проверки на любое основное распределение (тогда как SW - только для нормальности), и более низкая мощность может быть хорошей вещью с большими выборками.

— gung - Восстановить Монику

Чем полезна низшая сила? Пока Тип I остается прежним, разве высшая сила не всегда лучше? Кроме того, КС, как правило, не менее эффективен, может быть, только к лептокуртозу? Например, KS намного мощнее для перекоса без соразмерного увеличения количества ошибок типа 1.

— Джон

Колмогоров-Смирнов для полностью определенного распределения. Шапиро Вилк нет. Их нельзя сравнивать ... потому что, как только вы сделаете необходимые настройки, чтобы сделать их сопоставимыми, у вас больше не будет ни того, ни другого теста .

— Glen_b

Нашел это имитационное исследование, на случай, если добавит что-нибудь полезное в виде деталей. Тот же общий вывод, что и выше: тест Шапиро-Уилка более чувствителен. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf

— Ник Стаунер,