Примеры исследований с использованием p <0,001, p <0,0001 или даже более низких значений p?


11

Я родом из общественных наук, где p <0,05 в значительной степени является нормой, причем p <0,1 и p <0,01 также обнаруживаются, но мне было интересно: в каких областях обучения, если таковые имеются, используют более низкие значения p в качестве общего стандарт?

Ответы:


9

Мое мнение таково, что это не зависит (и не должно) зависеть от области обучения. Например, вы можете работать на более низком уровне значимости, чем если, например, вы пытаетесь повторить исследование с историческими или устоявшимися результатами (я могу вспомнить несколько исследований об эффекте Струпа , которые привели к некоторые споры в последние несколько лет). Это равносильно рассмотрению более низкого «порога» в классической структуре Неймана-Пирсона для проверки гипотезы. Однако статистическое и практическое (или существенное) значение имеет другое значение.p<0.001

Sidenote . «Звездная система», по-видимому, доминировала в научных исследованиях еще в 70-х годах, но см. «Земля круглая» (р. <.05) Дж. Коэна ( Американский психолог , 1994, 49 (12), 997-1003), несмотря на то, что мы часто хотим знать, учитывая данные, которые я наблюдал, какова вероятность того, что истинно? Во всяком случае, есть также хорошая дискуссия Джерри Даллала « Почему р = 0,05? ».H0


Пожалуйста, исправьте мой ход мыслей: некоторые области могут быть сосредоточены, скажем, на биохимическом воздействии, и, следовательно, хотят использовать p <0,001, чтобы предотвратить любую ошибку типа I, которая может привести к опасности для здоровья. Кроме того, наряду с этой статьей от Am Psych я также помню большое исследование в Am J of Sociol или в одном из журналов soc sci, за которым я следую. Мои любимые, конечно же, Зилиак и Макклоски .
о.

1
То, что вы здесь описываете, звучит задом наперед. Я был бы обеспокоен ошибками типа II, говоря, что чего-то не существует, когда это происходит, с биохимическим воздействием. В этом случае я мог бы установить альфа выше, а не ниже.
Джон

Я работал в предположении, что тест будет иметь вид: «Давайте оценим, связана ли беременность с ЗГТ» (в этом случае ошибка типа I является более серьезной, чем ошибка типа II, но, возможно, эта конструкция является нестандартной).
о.

7

Кто-то может редко использовать предварительно заданный уровень альфа ниже, скажем, 0,01, но не так уж редко случается так, что люди утверждают, что подразумеваемый альфа менее 0,01, ошибочно полагая, что наблюдаемое значение P меньше 0,01 - это то же самое, что альфа Неймана-Пирсона менее 0,01.

Значения P Фишера не совпадают или взаимозаменяемы с частотой ошибок Неймана-Пирсона. не означает если только не принято решение использовать в качестве критического уровня значимости при разработке эксперимента. Если вы приняли бы как значимое, тогда означает, что вероятность ложного положительного результата составляет .P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Посмотрите на Хаббарда и соавт. Путаница в показателях достоверности (p) и ошибок (α) в классическом статистическом тестировании. Американский статистик (2003), вып. 57 (3)


Я понимаю различие, хотя я, вероятно, делаю ошибку регулярно. Но у меня вопрос: есть ли где-нибудь обычное использование, например, p <.0001? Или, говоря провокационно, культ р <.05 универсален?
о.

«Культ» P <0,05 может быть почти универсальным, но невозможно быть уверенным в каких-либо утверждениях по этому вопросу, потому что очевидные исключения, скорее всего, являются результатом неосведомленной гибридизации методов Фишера и Неймана-Пирсона. В основных исследованиях фармакологических исследований почти никогда нет четкого заявления об использовании коэффициентов ошибок Неймана-Пирсона.
Майкл Лью

Спасибо за пример. Фармакологические исследования меня все меньше и меньше впечатляют по многим (не всем научным) причинам…
Фр.

1
Вы не должны воспринимать мой комментарий о фундаментальных фармакологических исследованиях как особую критику в этой области, это просто моя собственная дисциплина и, следовательно, та, с которой у меня больше всего опыта. Я уверен, что вы найдете много областей в фундаментальных исследованиях с точно такими же недостатками в отношении гибридизированных значений P и частоты ошибок.
Майкл Лью

Не беспокойтесь, я легко могу себе представить, что этот недостаток хорошо распространяется в разных областях исследований.
о.

3

Я не очень знаком с этой литературой, но я полагаю, что некоторые физики используют намного более низкие пороги в статистических тестах, но они говорят об этом немного по-другому. Например, если мера составляет три стандартных отклонения от теоретического прогноза, она описывается как отклонение «три сигмы». По сути, это означает, что интересующий параметр статистически отличается от прогнозируемого значения в z-тесте с α = .01. Две сигмы примерно эквивалентны α = 0,05 (на самом деле это будет 1,96 σ). Если я не ошибаюсь, стандартный уровень ошибок в физике составляет 5 сигм, что было бы α = 5 * 10 ^ -7

Кроме того, в нейробиологии или эпидемиологии, кажется, все чаще и чаще проводят некоторую коррекцию для множественных сравнений. Поэтому уровень ошибки для каждого отдельного теста может быть ниже, чем р <0,01.


1
Генетическая эпидемиология обычно использует в исследованиях ассоциаций всего генома, часто независимо от точного количества выполненных тестов. α=5×108
Гость

1

Как отмечает Гаэль Лауранс выше, статистический анализ, который сталкивается с проблемой множественного сравнения, имеет тенденцию использовать более консервативные пороги. Однако по сути они используют 0,05, но умноженные на количество тестов. Очевидно, что эта процедура (коррекция Бонферрони) может быстро привести к невероятно маленьким значениям p. Вот почему люди в прошлом (в неврологии) останавливались на уровне p <0,001. В настоящее время используются другие методы множественных сравнительных поправок (см. Марковскую теорию случайных полей).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.