Когда корректировать значения p в нескольких сравнениях?


11

Боюсь, что связанные вопросы не ответили на мои. Мы оцениваем показатели> 2 классификаторов (машинное обучение). Наша нулевая гипотеза состоит в том, что показатели не отличаются. Мы проводим параметрический (ANOVA) и непараметрический (Friedman) тесты, чтобы оценить эту гипотезу. Если они важны, мы хотим выяснить, какие классификаторы отличаются в заданном квесте.

Мой вопрос двоякий:

1) Нужна ли вообще коррекция p-значений после многократного сравнения? Сайт немецкой Википедии на «Alphafehler Kumulierung» говорит, что проблема возникает, только если несколько гипотез проверяются на одних и тех же данных. При сравнении классификаторов (1,2), (1,3), (2,3) данные только частично перекрываются. Требуется ли исправить значения p?

2) Коррекция P-значения часто используется после попарного тестирования с помощью t-критерия. Это также необходимо при проведении специальных специальных тестов, таких как тест Немени (непараметрический) или тест Тьюки HSD? Этот ответ говорит «нет» для HSD Тьюки: корректен ли тест Tukey HSD для множественных сравнений? , Есть ли правило, или я должен искать это для каждого потенциального пост-специального теста?

Благодаря!


Почему вы выполнять как ANOVA и Фридмана тесты?
Алексис

Речь идет об автоматизированной среде тестирования, которая должна предоставлять рецензенту как параметрическую, так и непараметрическую альтернативу, если параметрические предположения не выполняются.
Крис

1
О упомянутых вами комплексных тестах: (A) если ваши группы данных независимы, вы должны использовать либо ANOVA (параметрический), либо критерий Крускала-Уоллиса (непараметрический); (B) если ваши группы являются зависимыми (например, повторные измерения), то вы должны использовать тест ANOVA с повторными измерениями (параметрический) или тест Фридмана (непараметрический). (Классический) Тест ANOVA и Фридмана как его альтернатива не звучит правильно.
GegznaV

Ответы:


10

Ответ на вопрос 1
Вам необходимо настроить множественные сравнения, если вас волнует вероятность того, что вы допустите ошибку типа I. Простая комбинация метафоры / мысленного эксперимента может помочь:

Представьте, что вы хотите выиграть в лотерею. Эта странная лотерея, как ни странно, дает вам 0,05 шансов на выигрыш (т.е. 1 из 20). M - это стоимость билета в этой лотерее, что означает, что ожидаемый доход от одного лотереи составляет M / 20. Теперь, даже более странно, представьте, что по неизвестным причинам эта стоимость, M , позволяет вам иметь столько лотерейных билетов, сколько вы хотите (или, по крайней мере, более двух). Думая про себя: «Чем больше вы играете, тем больше вы выигрываете», вы получаете кучу билетов. Ваш ожидаемый доход от лотерейного колла больше не M / 20, а нечто большее. Теперь замените «выигрыш в лотерее» на «ошибка типа I».

Если вас не волнуют ошибки, и вы не заботитесь о людях, которые постоянно и насмешливо направляют ваше внимание на определенную карикатуру о желе , тогда продолжайте и не настраивайте на множественные сравнения.

Проблема «одних и тех же данных» возникает в семейных методах исправления ошибок (например, Бонферрони, Холм-Сидак и т. Д.), Поскольку понятие «семья» несколько расплывчато. Однако методы ложного обнаружения (например, Бенджамини и Хохберг, Бенджамини и Йукетели и т. Д.) Обладают свойством того, что их результаты являются надежными при разных группах умозаключений.


Ответ на вопрос 2
Большинство парных тестов требуют коррекции, хотя существуют стилистические и дисциплинарные различия в том, что называют тестом. Например, некоторые люди ссылаются на « t- тесты Бонферрони » (что является изящной уловкой, поскольку Бонферрони не разработал ни t- теста, ни корректировки Бонферрони для множественных сравнений :). Я лично нахожу это неудовлетворительным, так как (1) я хотел бы провести различие между проведением группы статистических тестов и корректировкой для множественных сравнений, чтобы эффективно понять сделанные мной выводы, и (2) когда кто-то приходит вместе с новый парный тест, основанный на четком определении , тогда я знаю, что могу выполнить корректировки для нескольких сравнений.α


2
+1 за исчерпывающий и юмористический ответ (и за ссылку на xkcd). В частности, вы также ответили на мой пока еще не сформулированный вопрос, есть ли разница между «Бонферрони-тестом» и «Бонферрони-коррекцией». Тем не менее, не могли бы вы объяснить проблему множественных сравнений в терминах моего описания проблемы? Я понимаю, что один из классификаторов похож на группу лечения, в которой нет комиксов без / синих / зеленых / ... желе.
Крис

@ Крис Добро пожаловать ... Я не совсем уверен, что вы спрашиваете. Да, требуется многократное сравнение. Да, вы можете выполнить корректировки FWER или FDR для любого парного теста, который возвращает (процедуры обычно изменяют или изменяют уровень отклонения, либо в целом, либо последовательно). рpp
Алексис

Я думаю, что все в порядке, большое спасибо! Может потребоваться еще немного времени, чтобы применить пример лотереи к моему сценарию использования, но я понял идею.
Крис

@ Крис понимает, что лотерея была просто метафорой. Если вам нужна помощь в применении методов FWER или FDR, просмотрите записи в Википедии, найдите соответствующие вопросы здесь или, возможно, задайте новый вопрос об этом. :)
Алексис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.