В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова? Когда результаты этих двух методов будут отличаться?
В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова? Когда результаты этих двух методов будут отличаться?
Ответы:
Вы не можете даже сравнить два, так как Колмогоров-Смирнов для полностью определенного распределения (поэтому, если вы проверяете нормальность, вы должны указать среднее значение и дисперсию; их нельзя оценить по данным *), в то время как Шапиро-Вилк для нормальности, с неопределенным средним и дисперсией.
* вы также не можете стандартизировать, используя оценочные параметры и тест на стандартную нормаль; это на самом деле то же самое.
Одним из способов сравнения было бы дополнить Shapiro-Wilk тестом для указанного среднего значения и дисперсии в нормали (каким-то образом комбинируя тесты), или с помощью таблиц KS, скорректированных для оценки параметров (но тогда это больше не является распределением). -свободный).
Существует такой тест (эквивалент Колмогорова-Смирнова с оценочными параметрами) - тест Лиллифорса; версию теста нормальности можно было бы сравнить с Шапиро-Вилком (и, как правило, она будет иметь меньшую мощность). Более конкурентоспособным является тест Андерсона-Дарлинга (который также должен быть скорректирован для оценки параметров, чтобы сравнение было достоверным).
Что касается того, что они тестируют - тест KS (и Lilliefors) смотрит на наибольшую разницу между эмпирическим CDF и заданным распределением, в то время как Shapiro Wilk эффективно сравнивает две оценки дисперсии; тесно связанный Шапиро-Франсия можно рассматривать как монотонную функцию квадрата корреляции на графике QQ; если я правильно помню, Шапиро-Уилк также учитывает ковариации между статистикой заказов.
Отредактировано, чтобы добавить: Хотя Шапиро-Уилк почти всегда побеждает тест Лиллифорса на интересующих альтернативах, примером, где это не так, является в средних и больших выборках ( ). Там Lilliefors обладает большей силой.
[Следует иметь в виду, что существует гораздо больше тестов на нормальность, чем эти.]
hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))
- если бы значения p были такими, какими они должны быть, это выглядело бы одинаково!
Вкратце, тест Шапиро-Уилка является специфическим тестом на нормальность, тогда как метод, используемый тестом Колмогорова-Смирнова, является более общим, но менее мощным (то есть он реже отвергает нулевую гипотезу нормальности). Обе статистические данные принимают нормальность за ноль и устанавливают тестовую статистику на основе выборки, но то, как они это делают, отличается друг от друга способами, которые делают их более или менее чувствительными к функциям нормальных распределений.
Как именно рассчитывается W (тестовая статистика для Шапиро-Уилка), немного сложновато , но концептуально это включает в себя массив значений выборки по размеру и измерение соответствия ожидаемым средним, дисперсиям и ковариациям. Эти множественные сравнения с нормальностью, насколько я понимаю, дают тесту большую мощность, чем тест Колмогорова-Смирнова, и это один из способов, которым они могут отличаться.
В отличие от этого, критерий Колмогорова-Смирнова для нормальности получен из общего подхода к оценке пригодности путем сравнения ожидаемого совокупного распределения с эмпирическим совокупным распределением, с учетом:
Как таковой, он чувствителен в центре распределения, а не в хвостах. Однако тест KS является сходящимся в том смысле, что при стремлении n к бесконечности тест сходится к истинному ответу по вероятности (я считаю, что здесь применима теорема Гливенко-Кантелли , но кто-то может исправить меня). Это еще два способа, которыми эти два теста могут отличаться в своей оценке нормальности.