У слабых исследований увеличилась вероятность ложных срабатываний?

23

Этот вопрос уже задавался здесь и здесь, но я не думаю, что ответы касаются вопроса напрямую.

У слабых исследований увеличилась вероятность ложных срабатываний? Некоторые новостные статьи делают это утверждение. Для примера :

Низкая статистическая мощность - плохая новость. Слабые исследования, скорее всего, пропустят подлинные эффекты, и как группа, они с большей вероятностью будут включать более высокую долю ложноположительных результатов, то есть эффектов, которые достигают статистической значимости, даже если они не являются реальными.

Насколько я понимаю, мощность теста может быть увеличена за счет:

увеличение размера выборки
имеющий больший размер эффекта
повышение уровня значимости

Предполагая, что мы не хотим изменять уровень значимости, я полагаю, что приведенная выше цитата относится к изменению размера выборки. Однако я не вижу, как уменьшение выборки должно увеличить количество ложных срабатываний. Проще говоря, уменьшение силы исследования увеличивает вероятность ложных негативов, что отвечает на вопрос:

п (отказ от отклонения {ЧАС}_{0} | {ЧАС}_{0} ложно)

$P(\text{failure to reject }H_{0}|H_{0}\text{ is false})$

Напротив, ложные срабатывания отвечают на вопрос:

п (отклонять {ЧАС}_{0} | {ЧАС}_{0} правда)

$P(\text{reject }H_{0}|H_{0}\text{ is true})$

Оба вопроса разные, потому что условия разные. Власть (обратно) связана с ложными отрицаниями, но не с ложными срабатываниями. Я что-то пропустил?

hypothesis-testing power false-discovery-rate

— Роберт Смит
источник

4

Это не уровень ложных срабатываний, который зависит от статистической мощности, а "уровень ложных открытий":

P (H_{0} is true | reject H_{0})

$P(H_0 \text{is true}| \text{reject} H_0)$

— Джейк Уэстфолл

2

Да, это, кажется, правильное толкование утверждения в статье Wired.

— Роберт Смит

30

Вы правы в том, что размер выборки влияет на мощность (т.е. ошибка 1 - тип II), но не на ошибку I типа. Распространенным заблуждением является то, что p-значение как таковое (правильно интерпретированное) менее надежно или допустимо при небольшом размере выборки - очень интересная статья Friston 2012 об этом забавно [1].

При этом проблемы с недостаточно развитыми исследованиями реальны, и я бы сказал, что цитата в значительной степени правильная, лишь немного неточная в своей формулировке.

Основная проблема с недостаточными исследованиями состоит в том, что, хотя уровень ложных срабатываний (ошибка типа I) в тестах гипотез фиксирован, уровень истинных положительных результатов (мощность) снижается. Следовательно, положительный (= значимый) результат с меньшей вероятностью будет истинно положительным в недостаточно изученном исследовании. Эта идея выражается в частоте ложных открытий [2], см. Также [3]. Кажется, это относится к цитате.

Еще одна проблема, часто упоминаемая в связи с недостаточными исследованиями, заключается в том, что они приводят к завышенным величинам эффекта. Это связано с тем, что: а) при более низкой мощности ваши оценки истинных эффектов станут более переменными (стохастическими) относительно их истинного значения, и б) только самый сильный из этих эффектов пройдет фильтр значимости при низкой мощности. Следует добавить, что это проблема отчетности, которую можно легко решить, обсуждая и сообщая обо всех, а не только о существенных последствиях.

Наконец, важная практическая проблема с недостаточными исследованиями состоит в том, что низкая мощность увеличивает статистические проблемы (например, смещение оценок), а также искушение поиграться с переменными и подобной тактикой p-хакерства. Использование этих «степеней свободы исследователя» наиболее эффективно при низкой мощности, и ЭТО может, в конце концов, увеличить ошибку I типа, см., Например, [4].

По всем этим причинам я бы поэтому скептически отнесся к недостаточному исследованию.

[1] Фристон К. (2012) Десять иронических правил для нестатистических рецензентов. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Кнопка KS; Иоаннидис, JPA; Mokrysz, C .; Носек Б.А. Flint, J .; Robinson, ESJ & Munafo, MR (2013) Отказ питания: почему небольшой размер выборки подрывает надежность нейробиологии. Туземный Rev. Neurosci., 14, 365-376

[4] Симмонс, JP; Нельсон, Л.Д. и Симонсон, У. (2011) Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Psychol Sci., 22, 1359-1366.

— Флориан Хартиг
источник

Спасибо. Отличные ссылки. Для полноты, [1] можно найти здесь, а [3] доступно здесь . Когда вы говорите о ложных показателях обнаружения, вы уверены, что это правильная концепция? Исходя из [3], может быть, вы имели в виду положительную прогностическую ценность (PPV), в которой исследования с недостаточным уровнем мощности имеют более низкое значение PPV (то есть истинные положительные результаты не так часты, как должны быть в исследовании с высокой степенью вероятности) дополнение ППВ.

— Роберт Смит

Насколько я понимаю, эти понятия идентичны, PPV = 1-FDR. Я предпочитаю использовать FDR, потому что нахожу слово более понятным.

— Флориан Хартиг

Смотрите также здесь en.wikipedia.org/wiki/Positive_and_negative_predictive_values

— Флориан Хартиг,

2

Tal Яркони указывает все вещи неправильно о статье Friston здесь .

— Йон

1

@jona - Я думаю, что Тал Яркони поднимает некоторые хорошие моменты в своем блоге. Я предполагаю, что резюме из 1 предложения будет «малое энергопотребление - это проблема», и это именно то, что я говорю выше. Я до сих пор нахожу карикатуру Фристона на комментарии рецензентов забавной, потому что случается так, что рецензенты «находят размер выборки слишком низким» без убедительного аргумента, который предполагает расчетную мощность.

— Флориан Хартиг

6

В зависимости от того, как вы на это смотрите, низкая мощность может увеличить количество ложноположительных результатов в данных сценариях.

Учтите следующее: исследователь проверяет лечение. Если тест возвращается как незначительный, они отказываются от него и переходят к следующему лечению. Если тест возвращается значительным, они публикуют его. Давайте также учтем, что исследователь проверит некоторые методы лечения, которые работают, а некоторые - нет. Если исследователь обладает высокой мощностью (разумеется, имея в виду случай, когда он тестирует работающее лечение), тогда он, скорее всего, остановится, как только протестирует эффективное лечение. С другой стороны, при малой мощности они могут пропустить истинный эффект лечения и перейти к другим методам лечения. Чем больше нулевых обработок они тестируют, тем больше вероятность того, что они совершат ошибку типа I (этот исследователь не учитывает множественные сравнения). В случае малой мощности, они, как ожидается, протестируют еще много нулевых обработок

Вы можете сказать: «Ну, это просто исследователь, злоупотребляющий множественными сравнениями!». Что ж, это может быть правдой, но так же в наши дни проводится много исследований. Именно по этим причинам я лично мало верю в опубликованные работы, если у них нет достаточно большого размера выборки, чтобы исследователь не мог позволить себе повторить один и тот же эксперимент большое количество раз.

— Клифф AB
источник

1

Спасибо. Даже игнорируя случай множественных сравнений (без надлежащих исправлений), я думаю, что вы описываете другой случай PPV, как описано здесь . Я не могу вставить абзац, но он начинается с (

For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null

)

— Роберт Смит

1

Ах да, это очень близко описывает то, что я имел в виду. Наименьшее различие заключается в том, что я говорю: «В данной экспериментальной процедуре индивидуальное низкое энергопотребление в каждом тесте истинного эффекта увеличивает шансы использования ошибки типа I во всей нашей экспериментальной процедуре ». Это, конечно, отличается от увеличения частоты ошибок типа I в каждом статистическом тесте. Кроме того, это только в самых технических смыслах, отличных от PPV. Но это единственный способ, которым заявление СМИ «малое энергопотребление увеличивает ошибки типа I» имеет смысл (и я думаю, что оно имеет большой смысл).

— Клифф AB

4

Низкое энергопотребление не может повлиять на частоту ошибок типа 1, но может повлиять на долю опубликованных результатов, которые являются ошибками типа 1.

Причина в том, что низкая мощность снижает вероятность правильного отклонения H0 (ошибка типа 2), а не вероятность ложного отклонения H0 (ошибка типа 1).

Предположим на секунду, что есть две литературы ... одна из которых проводится с очень низкой мощностью - около нуля - а другая - с достаточной мощностью. В обеих литературах вы можете предположить, что когда H0 ложно, вы все равно будете иногда получать ложные срабатывания (например, 5% для альфа = 0,05). Предполагая, что исследователи не всегда верны в своих гипотезах, мы можем предположить, что в обеих литературах должно быть одинаковое число ошибок типа 1, хорошая мощность или нет. Это связано с тем, что мощность ошибок типа 1 не зависит от мощности, как уже говорили другие.

Однако в литературе с НИЗКОЙ мощностью у вас также будет много ошибок Типа 2. Другими словами, в литературе с низким энергопотреблением не должно быть правильных отклонений H0, что делает ошибки типа 1 большей частью литературы. В большой литературе вы должны иметь смесь правильных и неправильных отклонений H0.

Итак, низкая мощность увеличивает ошибки типа 1? Нет. Однако это затрудняет поиск истинных эффектов, делая ошибки типа 1 большей частью опубликованных результатов.

— Том Карпентер
источник

1

Спасибо. А как насчет PPV? В статье, на которую ссылается Флориан Хартиг, есть утверждение, что, учитывая ошибку типа I, чем ниже мощность, тем ниже PPV. Если PPV ниже, что означает, что число истинно заявленных открытий меньше, тогда число ложно заявленных открытий (ложных срабатываний) должно увеличиться.

— Роберт Смит

0

В дополнение к ответу других, исследование обычно недостаточно эффективно, когда размер выборки невелик. Есть много тестов, которые только асимптотически верны, и слишком оптимистичны или консервативны для малых n.

Другие тесты действительны только для небольших размеров выборки, если соблюдены определенные условия, но становятся более надежными при большом размере выборки (например, t-критерий).

В обоих этих случаях небольшой размер выборки и неудовлетворительное предположение могут привести к увеличению частоты ошибок типа I. Обе эти ситуации происходят достаточно часто, поэтому я считаю, что реальный ответ на ваш вопрос: не в теории, а на практике.

— Erik
источник