Что касается тестирования значимости (или чего-то еще, что по существу делает то же самое, что и тестирование значимости), я долго думал, что наилучшим подходом в большинстве ситуаций, вероятно, будет оценка стандартизированной величины эффекта с 95% -ным доверительным интервалом относительно этого. размер эффекта. Там нет ничего действительно нового - математически вы можете перетасовывать туда-сюда между ними - если p-значение для 'nil' null <0,05, то 0 будет лежать за пределами 95% -ного доверительного интервала, и наоборот. Преимущество этого, на мой взгляд, психологическое; то есть он делает существенную информацию, которая существует, но которую люди не могут видеть, когда сообщают только p-значения. Например, легко увидеть, что эффект дико «значительный», но смехотворно маленький; или «незначительный», но только потому, что полосы ошибок огромны, тогда как ожидаемый эффект более или менее соответствует ожидаемому. Они могут быть в паре с необработанными значениями и их CI.
Теперь, во многих областях необработанные значения имеют внутреннее значение, и я признаю, что возникает вопрос о том, стоит ли еще вычислять меры величины эффекта, учитывая, что у нас уже есть значения, такие как средние значения и уклоны. Примером может служить замедление роста; мы знаем, что значит для 20-летнего белого мужчины быть на 6 +/- 2 дюйма короче (т.е. на 15 +/- 5 см), чем они были бы в противном случае, так зачем упоминать ? Я склонен полагать, что в обоих отчетах все еще может быть ценность, и могут быть написаны функции для их вычисления, так что это очень мало дополнительной работы, но я признаю, что мнения будут разными. В любом случае, я утверждаю, что точечные оценки с доверительными интервалами заменяют значения p в качестве первой части моего ответа. d=−1.6±.5
С другой стороны, я думаю, что больший вопрос заключается в том, «выполняет ли тест значимости то, что мы действительно хотим?». Я думаю, что реальная проблема заключается в том, что для большинства людей, анализирующих данные (то есть практикующих специалистов, а не статистиков), тестирование значимости может стать полнотой анализа данных. Мне кажется, что самое важное - это иметь принципиальный способ думать о том, что происходит с нашими данными, и проверка значимости нулевой гипотезы, в лучшем случае, очень малая часть этого. Позвольте мне привести воображаемый пример (я признаю, что это карикатура, но, к сожалению, я боюсь, что это несколько правдоподобно):
Боб проводит исследование, собирая данные о том или ином. Он ожидает, что данные будут нормально распределены, плотно сгруппированы вокруг некоторого значения, и намеревается провести t-тест с одной выборкой, чтобы увидеть, «существенно ли отличаются» его данные от некоторого предварительно определенного значения. Собрав свой образец, он проверяет, нормально ли распределяются его данные, и обнаруживает, что это не так. Вместо этого они не имеют ярко выраженного комка в центре, но относительно высоки в течение заданного интервала и затем затягиваются длинным левым хвостом. Боб беспокоится о том, что он должен сделать, чтобы его тест был действительным. В конце концов он что-то делает (например, преобразование, непараметрический тест и т. Д.), А затем сообщает статистику теста и значение p.
Я надеюсь, что это не так неприятно. Я не хочу насмехаться над кем-то, но я думаю, что нечто подобное иногда случается. Если этот сценарий произойдет, мы все можем согласиться, что это плохой анализ данных. Однако проблема не в том, что статистика теста или значение p неверны; мы можем утверждать, что данные были обработаны должным образом в этом отношении, Я бы сказал, что проблема заключается в том, что Боб занимается тем, что Кливленд называет «анализом данных». Похоже, он считает, что единственная цель - получить правильное значение p, и очень мало думает о своих данных за пределами достижения этой цели. Он даже мог бы перейти к моему предложению выше и сообщить о стандартизированном размере эффекта с 95% -ным доверительным интервалом, и это не изменило бы то, что я считаю более серьезной проблемой (это то, что я имел в виду, делая «по сути то же самое»). "другим способом). В данном конкретном случае тот факт, что данные не выглядели так, как он ожидал (то есть не были нормальными), является реальной информацией, это интереснои, возможно, очень важно, но эта информация по сути просто выбрасывается. Боб не признает этого из-за сосредоточенности на проверке значимости. На мой взгляд, это реальная проблема с проверкой значимости.
Позвольте мне остановиться на нескольких других упомянутых перспективах, и я хочу четко заявить, что я никого не критикую.
- Часто упоминается, что многие люди на самом деле не понимают p-значения (например, думая, что они являются вероятностью, что ноль истинен) и т. Д. Иногда утверждают, что, если бы люди использовали байесовский подход, эти проблемы уходи. Я полагаю, что люди могут подходить к анализу байесовских данных таким же образом, как и к механическим. Тем не менее, я думаю, что неправильное понимание значения p-значений было бы менее вредным, если бы никто не думал, что получение p-значения было целью.
- Существование «больших данных», как правило, не связано с этой проблемой. Большие данные только дают понять, что организация анализа данных вокруг «значимости» не является полезным подходом.
- Я не верю, что проблема в проверяемой гипотезе. Если бы люди только хотели увидеть, находится ли оценочное значение вне интервала, а не равно ли оно точечному значению, могут возникнуть многие из тех же самых проблем. (Опять же, я хочу пояснить, я знаю, что вы не «Боб» .)
- Для справки, я хочу упомянуть, что мое собственное предложение из первого абзаца не решает проблему, как я пытался указать.
Для меня это ключевой вопрос: что мы действительно хотим, так это принципиальный способ думать о том, что произошло . То, что это означает в любой данной ситуации, не вырезано и высушено. Как передать это студентам в классе методов не ясно и не легко. Проверка значимости имеет много инерции и традиций. На уроке статистики понятно, чему и как учить. Для студентов и практиков становится возможным разработать концептуальную схему для понимания материала и контрольный список / блок-схему (я видел некоторые!) Для проведения анализа. Тестирование на значимость может естественным образом перерасти в тщательный анализ данных, и никто не будет глупым, ленивым или плохим. Это проблема.