Я очень обижен на следующие две идеи:
С большими выборками тесты значимости набрасываются на крошечные, незначительные отклонения от нулевой гипотезы
В реальном мире почти нет нулевых гипотез, поэтому проверка их значимости абсурдна и причудлива.
Это такой бессмысленный аргумент о p-значениях. Самая фундаментальная проблема, которая мотивировала развитие статистики, возникает из-за того, что мы наблюдаем тенденцию и хотим знать, является ли то, что мы видим, случайно или представителем систематической тенденции.
Имея это в виду, это правда, что мы, статистики, как правило, не считаем, что нулевая гипотеза верна (то есть , где - это средняя разница в некоторых измерениях между двумя группами). Однако с помощью двухсторонних тестов мы не знаем, какая альтернативная гипотеза верна! В двухстороннем тесте мы можем быть готовы сказать, что мы на 100% уверены, что до просмотра данных. Но мы не знаем, или . Поэтому, если мы запустим наш эксперимент и что , мы отклонили (как мог бы сказать Матлофф; бесполезное заключение), но, что более важно, мы также отклонилиμ d μ d ≠ 0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (говорю; полезный вывод). Как отметил @amoeba, это также относится к одностороннему тесту, который потенциально может быть двусторонним, например, к проверке того, оказывает ли препарат положительный эффект.
Это правда, что это не говорит о величине эффекта. Но он говорит вам направление эффекта. Так что давайте не будем ставить телегу перед лошадью; прежде чем начать делать выводы о величине эффекта, я хочу быть уверенным, что у меня есть правильное направление эффекта!
Точно так же аргумент, что «p-значения набрасываются на крошечные, неважные эффекты», кажется мне совершенно ошибочным. Если вы рассматриваете значение p как меру того, насколько данные поддерживают направление вашего вывода, тогда, конечно, вы хотите, чтобы оно улавливало небольшие эффекты, когда размер выборки достаточно велик. Сказать, что это означает, что они бесполезны, очень странно для меня: эти области исследований, которые пострадали от значений p, - это те же самые, которые имеют столько данных, что им не нужно оценивать достоверность своих оценок? Точно так же, если ваши проблемы действительно состоят в том, что p-значения «набрасываются на крошечные величины эффекта», то вы можете просто проверить гипотезы иH 2 : μ d < - 1H1:μd>1H2:μd<−1(при условии, что вы считаете 1 минимально важным размером эффекта). Это часто делается в клинических испытаниях.
Чтобы дополнительно проиллюстрировать это, предположим, что мы просто посмотрели на доверительные интервалы и отбросили p-значения. Какую первую вещь вы бы проверили в доверительном интервале? Был ли эффект строго положительным (или отрицательным), прежде чем воспринимать результаты слишком серьезно. Таким образом, даже без р-значений мы неофициально проводим проверку гипотез.
Наконец, что касается запроса OP / Matloff: «Дайте убедительный аргумент, что значения p значительно лучше», я думаю, что вопрос немного неловкий. Я говорю это потому, что, в зависимости от вашего взгляда, он автоматически отвечает сам на себя («приведите один конкретный пример, в котором проверка гипотезы лучше, чем не проверка их»). Однако, особый случай, который я считаю почти неоспоримым, - это данные RNAseq. В этом случае мы обычно смотрим на уровень экспрессии РНК в двух разных группах (то есть, больные, контроли) и пытаемся найти гены, которые дифференциально экспрессируются в этих двух группах. В этом случае сам размер эффекта даже не имеет смысла. Это связано с тем, что уровни экспрессии разных генов изменяются настолько сильно, что для некоторых генов увеличение экспрессии в 2 раза ничего не значит, в то время как для других жестко регулируемых генов более высокая экспрессия в 1,2 раза является фатальной. Таким образом, фактическая величина величины эффекта на самом деле несколько неинтересна при первом сравнении групп. Но тыдействительно, очень хочется узнать, меняется ли экспрессия гена между группами и направление изменения! Кроме того, гораздо сложнее решать вопросы множественных сравнений (для которых вы можете выполнять 20 000 из них за один прогон) с доверительными интервалами, чем с p-значениями.