Почему связи непросты в непараметрической статистике?


14

Мой непараметрический текст, Практическая непараметрическая статистика , часто дает четкие формулы для ожиданий, отклонений, статистики тестов и т. П., Но содержит предостережение о том, что это работает, только если мы игнорируем связи. При расчете U-статистики Манна-Уитни рекомендуется отбрасывать связанные пары при сравнении, какая больше.

Я понимаю, что эти связи мало что говорят нам о том, какое население больше (если это то, что нас интересует), поскольку ни одна группа не больше другой, но, похоже, это не имеет значения при разработке асимптотических распределений.

Почему тогда это такое затруднение, связанное со связями в некоторых непараметрических процедурах? Есть ли способ извлечь какую-либо полезную информацию из связей, а не просто выбросить их?

РЕДАКТИРОВАТЬ: Что касается комментария @ whuber, я снова проверил свои источники, и некоторые процедуры используют среднее значение рангов вместо полного сброса связанных значений. Хотя это кажется более разумным в отношении сохранения информации, мне также кажется, что ей не хватает строгости. Однако дух вопроса остается в силе.


Вы говорите, что Практическая непараметрическая статистика говорит вам « выбрасывать » данные, когда они связаны? Может быть, вы неправильно истолковали его совет? Не могли бы вы процитировать это точно?
whuber

Да, возможно, что я неправильно понимаю совет. От того же автора: jstor.org/stable/2284536 «Уилкоксон предложил сначала удалить нули из данных и выполнить тест на сокращенном наборе данных. Если нет ненулевых связей, эта процедура приводит к условию (учитывая число нулей) бесплатный тест распределения и позволяет использовать существующие точные таблицы критических значений. По этой причине большинство книг по непараметрической статистике включают метод Уилкоксона в свое описание теста "
Кристофер Аден,

Конечно, это относится к тесту Уилкоксона со знаком, но я слышал аналогичные советы, используемые в других процедурах NP. Что касается примера Манна-Уитни, я вернулся и проверил книгу, и вы правы, что я ошибаюсь. С Манн-Уитни в книге рекомендуется усреднять ранги связанных значений, то есть: если ранги 6 и 7 связаны, давая каждому значение 6,5.
Кристофер Аден

2
Спасибо. Существуют строгие способы учета связанных групп. Они важны при работе с цензурированными (но непрерывными) данными, потому что часто цензурированные значения составляют большую связанную группу. Для тестов Крускала-Уоллиса и Уилкоксона ранговых сумм см. Главу 18 РО Гилберта, * Статистические методы мониторинга загрязнения окружающей среды. «Формулы, включающие связанные данные, могут быть сложными, но в некоторых случаях (например, тест KW) все, что вам нужно сделать это вычислить таблицу ANOVA для рангов
Whuber

Ответы:


14

Большая часть работы над непараметрическими параметрами была первоначально сделана, предполагая, что существует базовое непрерывное распределение, в котором связи будут невозможны (если измерять достаточно точно). Затем теория может основываться на распределениях статистики порядка (которые намного проще без связей) или других формулах. В некоторых случаях статистика получается примерно нормальной, что делает все очень просто. Когда связи вводятся либо потому, что данные были округлены, либо являются естественно дискретными, стандартные допущения не выполняются. Аппроксимация все еще может быть достаточно хорошей в некоторых случаях, но не в других, поэтому часто проще всего просто предупредить, что эти формулы не работают со связями.

Существуют инструменты для некоторых стандартных непараметрических тестов, которые разработали точное распределение при наличии связей. Пакет точныйRankTests для R является одним из примеров.

Один простой способ справиться со связями - это использовать рандомизированные тесты, такие как тесты перестановки или начальной загрузки. Они не беспокоятся об асимптотических распределениях, но используют данные как есть, связи и все (обратите внимание, что при большом количестве связей даже эти методы могут иметь низкую мощность).

Несколько лет назад была статья (я думал в Американской статистике, но я не нахожу ее), в которой обсуждались идеи связей и некоторые вещи, которые вы можете сделать с ними. Одна вещь состоит в том, что это зависит от того, какой вопрос вы задаете, что делать со связями, может сильно отличаться в тесте на превосходство от теста на неполноценность.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.