С моей точки зрения, проблема сводится к тому, что на самом деле означает провести проверку значимости. Проверка значимости была разработана как средство принятия решения либо об отклонении нулевой гипотезы, либо об отказе от нее. Сам Фишер ввел печально известное правило 0,05 для принятия этого (произвольного) решения.
По сути, логика проверки значимости заключается в том, что пользователь должен указать альфа-уровень для отклонения нулевой гипотезы (условно 0,05). перед сбором данных . После завершения теста значимости пользователь отклоняет нулевое значение, если значение p меньше альфа-уровня (или не может отклонить его в противном случае).
Причина, по которой вы не можете объявить эффект очень значительным (скажем, на уровне 0,001), заключается в том, что вы не можете найти более убедительные доказательства, чем вы намеревались найти. Таким образом, если вы установите уровень альфа в 0,05 перед тестом, вы можете найти доказательства только на уровне 0,05, независимо от того, насколько малы ваши значения p. Точно так же, говоря об эффектах, которые «несколько значительны» или «приближаются к значению», также не имеет особого смысла, потому что вы выбрали этот произвольный критерий 0,05. Если вы буквально истолковываете логику проверки значимости, все, что больше 0,05, не имеет значения.
Я согласен с тем, что такие термины, как «приближающаяся значимость», часто используются для улучшения перспектив публикации. Тем не менее, я не думаю, что авторы могут быть обвинены в этом, потому что текущая культура публикаций в некоторых науках все еще сильно зависит от «святого Грааля» 0,05.
Некоторые из этих вопросов обсуждаются в:
Gigerenzer, G. (2004). Бессмысленная статистика. Журнал социально-экономических, 33 (5), 587-606.
Royall, R. (1997). Статистические данные: парадигма вероятности (том 71). CRC пресс.