Разве неправильно называть результаты «очень значимыми»?

Почему статистикам препятствовать нам ссылаться на результаты , как « весьма значительным» , когда -значение значительно ниже обычного -уровень ? $p$ $\alpha$ $0.05$

Действительно ли неправильно доверять результату, который с вероятностью 99,9% не является ошибкой типа I ( ), больше, чем результат, который дает вам только такой шанс при 99% ( )? $p=0.001$ $p=0.01$

— z8080
источник

Возможно, стоит прочитать ответ @ gung здесь . Вкратце: для решения «значимое против несущественного» или «отвергнуть нулевую гипотезу против не отвергнуть нулевую гипотезу» имеет значение только то, находится ли значение ниже вашего которое вы установили перед исследованием (Neyman & Pearson ). С другой стороны, вы можете рассматривать значение как непрерывную меру доказательств против нулевой гипотезы, у которой нет «отсечки» (Фишер).

p

$p$

α

$\alpha$

p

$p$

— COOLSerdash

Похоже, у вас есть серьезное неправильное представление о p-значениях (p-значения не являются вероятностями ошибок), которые, если их исправить, могут помочь вам понять, почему вы можете услышать определенные вещи от статистиков.

— парень

Признаюсь, я иногда использую фразы типа «очень значительный». В других местах отчетов многие первоначальные результаты, возможно, должны быть скорректированы для многократного тестирования, где «очень значительный» приобретает более технический смысл «остается значимым даже после соответствующей корректировки для множественных сравнений». Даже когда все читатели согласны с тем , какую « использовать (что редко встречается в анализах, используемых несколькими заинтересованными сторонами), то, что является «значительным» или нет, зависит от набора гипотез, которые каждый читатель имел в виду перед просмотром отчета.

α

$\alpha$

— whuber

Не все статистики говорят, что это неправильно. Я использую этот термин сам (по общему признанию, редко) - например, чтобы показать, что в этих данных ноль был бы отклонен людьми, работающими с существенно более низкими уровнями значимости, чем тот, который я использовал, но важно не придавать ему большего значения чем это Я бы просто сказал, что нужно проявлять осторожность - иногда довольно много - при толковании значения такой фразы, а не того, что она является конкретно неправильной . Некоторые из пунктов здесь будут актуальны.

— Glen_b

(ctd) ... для сравнения, я думаю, что большее беспокойство вызывают люди, использующие тесты гипотез, которые просто не отвечают на интересующий их вопрос (что, я думаю, имеет место очень часто). Лучше сосредоточиться на этом вопиющем и важном вопросе, чем быть слишком догматичным в отношении незначительного заблуждения в том, как они выражают очень маленькое значение р.

— Glen_b

Ответы:

Я думаю, что нет ничего плохого в том, чтобы сказать, что результаты «очень значительны» (хотя да, это немного небрежно).

Это означает, что если бы вы установили намного меньший уровень значимости , вы все равно оценили бы результаты как значимые. Или, что эквивалентно, если некоторые из ваших читателей имеют в виду гораздо меньшую , то они все равно могут оценить ваши результаты как значимые. $\alpha$ $\alpha$

Обратите внимание, что уровень значимости находится в поле зрения наблюдателя, тогда как значение (с некоторыми оговорками) является свойством данных. $\alpha$ $p$

Наблюдение за - это не то же самое, что наблюдение за , хотя оба могут быть названы "значимыми" в соответствии со стандартными соглашениями вашего поля ( ). Крошечное значение означает более сильное доказательство против нуля (для тех, кто любит рамки гипотез Фишера); это означает, что доверительный интервал вокруг размера эффекта исключит нулевое значение с большим запасом (для тех, кто предпочитает КИ-значениям ); это означает, что апостериорная вероятность нуля будет меньше (для байесовских с некоторым предшествующим); все это эквивалентно и просто означает, что результаты более убедительны . См. Являются ли меньшие p-значения более убедительными? $p=10^{-10}$ $p=0.04$ $\alpha=0.05$ $p$ $p$ для дальнейшего обсуждения.

Термин «очень значительный» не является точным и не должен быть. Это субъективное экспертное суждение, подобное наблюдению за удивительно большим размером эффекта и названию его «огромным» (или, возможно, просто «очень большим»). Нет ничего плохого в использовании качественных, субъективных описаний ваших данных, даже в научной литературе; при условии, конечно, что представлен объективный количественный анализ.

Смотрите также некоторые превосходные комментарии выше, +1 к @whuber, @Glen_b и @COOLSerdash.

— амеба говорит восстановить монику
источник

Согласовано. Значение является количественным показателем; следовательно, подобные разговоры, хотя и неточные вне некоторого контекста, не являются ipso facto недействительными, так же как и слова «Билл высокий» и «Фред действительно высокий» - недопустимое использование английского языка. Мы должны также хотеть видеть числа и их контекст и т. Д. И т. Д. Ничто из этого не останавливает тех, кто хочет или должен принимать резкие решения при или что-то еще, делающее то, что они хотят, но их предпочтения не определяют это.

P

$P$

P < 0.05

$P < 0.05$

— Ник Кокс

Это не небрежно на всех. Это хорошо задокументировано как имеющее формальное определение.

— Сова

Это общий вопрос.

Аналогичный вопрос может быть «Почему р <= 0,05 считается значимым?» ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Майкл-Майер дал одну часть ответа: значимость - только одна часть ответа. При достаточном количестве данных обычно некоторые параметры отображаются как «значимые» (см. Поправку Бонферрони). Множественное тестирование является специфической проблемой в генетике, где широко распространены крупные исследования, ищущие значимость, и часто требуются значения p <10 ^-8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Кроме того, одна из проблем многих анализов заключается в том, что они были оппортунистическими и не были заранее спланированы (например, «Если вы пытаете данные достаточно, природа всегда признается». - Рональд Коуз).

Как правило, если анализ предварительно запланирован (с поправкой на повторный анализ для статистической мощности), его можно считать значимым. Часто повторное тестирование несколькими людьми или группами является лучшим способом подтвердить, что что-то работает (или нет). И повторение результатов чаще всего является правильным тестом на значимость.

— Билл Денни
источник

Тест - это инструмент для черно-белого решения, то есть он пытается ответить на вопрос «да / нет», типа «есть ли эффект истинного лечения?». Часто, особенно если набор данных большой, такой вопрос является пустой тратой ресурсов. Зачем задавать бинарный вопрос, если можно получить ответ на количественный вопрос типа «насколько велик истинный эффект лечения?» что неявно отвечает и на вопрос да / нет? Поэтому вместо того, чтобы с большой уверенностью отвечать на неинформативный вопрос «да / нет», мы часто рекомендуем использовать доверительные интервалы, которые содержат гораздо больше информации.

— Майкл М
источник

+1 Хотя, возможно, вы более четко ответите на вопрос ОП (это не так очевидно).

@ Мэтью: я полностью согласен.

— Майкл М,

Спасибо, Майкл. Но я полагаю, что доверительные интервалы (которые дают ответ «в непрерывном масштабе») будут относиться к величине эффекта, верно? Тем не менее, нет ли необходимости в бинарном ответе, который также дополняет непрерывный ответ, т. Е. Соответствует ли этот эффект (размер которого описывается КИ) согласованному α-уровню? Или, может быть, вы даже можете дать CI для самого p-значения?

— z8080

(A) «Размер эффекта» обычно относится к стандартизированному варианту эффекта лечения и, следовательно, менее легко интерпретируется, чем сам эффект. (B) CI для значений p иногда добавляются для моделируемых значений p, чтобы выразить неопределенность моделирования. (C) Если ваш уровень равен 0,05, то почти в каждой тестовой ситуации решение о чёрно-белом изображении можно получить, посмотрев на соответствующий 95% -й CI.

— Майкл М

(продолжение) Ваш вопрос каким-то образом связан со следующим: более полезно ли утверждать, что даже 99,9999% ДИ несовместим с нулевым значением или что даже нижняя граница 95% ДИ для истинного эффекта является очень многообещающей?

— Майкл М