Тест на пригодность: вопрос о тесте Андерсона – Дарлинга и критерии Крамера – фон Мизеса


10

Я читаю веб-страницы для проверки пригодности, когда я пришел к тесту Андерсона – Дарлинга и критерию Крамера – фон Мизеса .

До сих пор я понял суть; кажется, что критерий Андерсона – Дарлинга и критерий Крамера – фон Мизеса схожи, просто основаны на другой весовой функции . Также есть вариант критерия Крамера – фон Мизеса, названный тестом Ватсона .вес

В основном у меня есть два вопроса здесь

  1. Существует не так много результатов Google об этих двух методах; они все еще современны? или уже заменены лучшими подходами?

    Это немного удивительно, так как согласно этой статье о сравнениях мощности тестов Шапиро – Вилка, Колмогорова – Смирнова, Лиллифорса и Андерсона-Дарлинга , AD работает довольно хорошо; всегда лучше, чем Lilliefors и KS, и очень близко к тесту SW, который специально разработан для нормального распределения.

  2. Каков доверительный интервал для таких тестов?

    Для тестов AD, CM и Watson я видел переменную статистики теста, определенную на вики-страницах, но не нашел доверительный интервал.

    Вещи просто более простые для испытания КС: на вики - странице , доверительный интервал определяются , который определяется из кумулятивной функции распределения .КαК

Ответы:


4

Не может быть единого современного уровня качества (например, никакого теста UMP для общих альтернатив не будет, и на самом деле ничего даже близко не подойдет - даже в некоторых ситуациях высоко оцененные омнибусные тесты имеют ужасную силу).

В целом, при выборе тестовой статистики вы выбираете виды отклонений, которые наиболее важно обнаружить и использовать тестовую статистику, которая хороша для этой работы. Некоторые тесты очень хорошо подходят для широкого спектра интересных альтернатив, делая их достойным выбором по умолчанию, но это не делает их «современными».

Anderson Darling по-прежнему очень популярен и имеет на то веские причины. Тест Крамера-фон Мизеса в наши дни используется гораздо реже (к моему удивлению, потому что он обычно лучше, чем Колмогоров-Смирнов, но проще, чем Андерсон-Дарлинг, - и часто имеет большую мощность, чем он, на разнице «в середине» распространение)

Все эти тесты страдают от предвзятости по отношению к некоторым видам альтернатив, и легко найти случаи, когда Андерсон-Дарлинг делает намного хуже (ужасно, действительно), чем другие тесты. (Как я предполагаю, это больше «лошади для курсов», чем один тест, чтобы управлять ими всеми). К сожалению, этому вопросу часто уделяется мало внимания (что лучше всего подходит для выявления наиболее значимых для меня отклонений?)

Вы можете найти некоторую ценность в некоторых из этих сообщений:

Является ли Шапиро-Уилк лучшим тестом на нормальность? Почему это может быть лучше, чем другие тесты, такие как Андерсон-Дарлинг?

2 Выборка Колмогорова-Смирнова против Андерсона-Дарлинга против Крамера-фон-Мизеса (о тестах с двумя выборками, но многие утверждения переносятся

Мотивация колмогоровского расстояния между распределениями (более теоретическое обсуждение, но есть несколько важных моментов о практических последствиях)


Я не думаю, что вы сможете сформировать доверительный интервал для cdf в статистике Крамера-фон Мизеса и Андерсона Дарлина, потому что критерии основаны на всех отклонениях, а не только на самых больших.


Я понимал «современное состояние» как нечто, что находит применение, которое не устарело. Наличие множественных определений соответствия требованиям должно сигнализировать нам о том, что соответствие соответствия не является единой концепцией. Учтите, что «хорошо» зависит от «почему» мы выполняем регрессию. Предположим, что мы подгоняем Модель A к данным B, чтобы получить лучший предиктор эффекта C. Тогда «хороший» является лучшим предиктором C, а не B. Однако чаще всего вопрос о том, как отличаются B и C, игнорируется.
Карл

1
@ Карл, вы можете захотеть проверить словарь (или википедию) о том, что обычно подразумевают за уровнем техники - ваша интерпретация фразы не так, как большинство людей читает фразу. Словари говорят о таких вещах: « самая последняя стадия развития, включающая новейшие идеи » и « высочайший уровень развития в данный момент времени » и « передовые технологии с использованием новейших технологий ». В этом контексте - проверяя правильность соответствия - фраза подразумевает «лучшее, что мы можем сделать прямо сейчас». Я настаиваю, что это не то, что вы действительно можете сказать о каком-либо одном тесте. ... ctd
Восстановить Монику

2
... например, мы можем сказать, что популярные тесты, такие как Shapiro-Wilk (хотя они очень популярны в тестировании нормальности), имеют конкурентов с гораздо большей силой (например, см. Shapiro & Chen 1995) - но не в каждой ситуации. Там нет единственного лучшего выбора теста (и, следовательно, нет фактического «уровня техники»). Конечно, я согласен, что лучшее (современное состояние) зависит от обстоятельств - в этом смысл моего ответа; возможные ответы бесчисленные - что-то хорошее в одной ситуации может быть очень плохим в другой. Полезно знать, когда тесты работают хорошо, а не спрашивать «что лучше», как если бы это была одна вещь.
Glen_b

Правда, ваше определение более правильное. Однако существует гораздо больше методов, чем тестов методов, и «современное состояние» в значительной степени является вымыслом, т. Е. У «искусства» нет «состояния», все, что у него есть, - это главные герои. Любой ответ на такую ​​туманную позицию сомнительный. Я сказал «да», а вы сказали «нет», и мы оба сказали то же самое.
Карл

Кстати, вопрос был «современный» или «замененный», который я назвал «устаревшим или не устаревшим». Таким образом, в моем ответе был контекст, который был следующим: «Пожалуйста, предположите, что« современное состояние »и« заменить »являются антонимами, и, пожалуйста, выберите один из них». Вы правы, что это не антонимы, я отвечал в контексте, и вы решили задать вопрос. Итак, мой был вежливый ответ. И я собираюсь проголосовать за ваш ответ, потому что считаю его информативным, если не чрезмерно вежливым.
Карл

2

Nзнак равно400 является более мощным кумулятивным тестом на соответствие функции плотности, чем тест Колмогорова-Смирнова, и может иметь мощность, большую или меньшую, чем t-критерий. Хи-квадрат имеет трудности с низким количеством клеток, поэтому для подгонки хвостов используются ограничения по дальности.

** Вопрос 1: ... эти два метода ... все еще современны? или уже заменены лучшими подходами? Вопрос 2 Каков доверительный интервал для таких тестов? **

Ответ: они передовые. Однако иногда нам нужны доверительные интервалы, а не вероятности. Сравнивая эти методы друг с другом, мы говорим о силе, а не о доверительных интервалах. Иногда соответствие пригодности анализируется с использованием AIC, BIC и других критериев в отличие от вероятностей хорошего соответствия, а иногда критерий соответствия не имеет значения, например, когда соответствие соответствия не является критерием соответствия , В последнем случае нашей целью регрессии может быть физическая величина, не связанная с подгонкой, например, см. Tk-GV .


NB. Тест Андерсона-Дарлинга является взвешенной версией теста Крамера-фон Мизеса; И, как это, подходит для любого непрерывного распространения.
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.