40000 нейробиологических работ могут быть ошибочными

Я видел эту статью в «Экономисте» о, казалось бы, разрушительной работе [1], ставящей под сомнение «что-то вроде 40 000 опубликованных [МРТ] исследований». Ошибка, говорят они, из-за «ошибочных статистических предположений». Я прочитал статью и вижу, что отчасти это проблема с множественными исправлениями сравнения, но я не эксперт по МРТ, и мне трудно следить за этим.

О каких ошибочных предположениях говорят авторы ? Почему эти предположения сделаны? Как обходить эти предположения?

Оборотная сторона подсчета конвертов гласит, что 40 000 документов МРТ - это финансирование на сумму более миллиарда долларов (зарплата аспирантов, эксплуатационные расходы и т. Д.).

[1] Эклунд и др., Кластерный сбой: почему выводы по фМРТ для пространственного экстента завышены ложноположительных показателей, PNAS 2016

— R Грег Стейси
источник

Смотрите также статью о МРТ мертвого лосося. wired.com/2009/09/fmrisalmon

— Восстановить Монику

Это действительно тонкая грань, особенно в изучении невропатологии, потому что вы можете полностью ограничить ложные срабатывания сколько угодно, но в итоге вы получите огромный ложный отрицательный результат.

— Firebug

Между ними есть небольшая разница: документ с лососем - это симпатичная маленькая притча о важности коррекции множественных сравнений, которую все должны были уже делать. Напротив, проблема PNAS кусает людей, которые пытались сделать «правильную вещь», но сама коррекция была немного нереальной.

— Мэтт Краузе

Я думаю, что это большой вопрос, который нужно задать, потому что в его основе лежат исправления множественных сравнений и ключевые допущения при проведении такого типа анализа в контексте общего направления исследований. Тем не менее, единственный вопрос в тексте «кто-то с большим знанием, чем они, хочет это прокомментировать? что несколько широкий и неспецифический. Если бы это могло быть сфокусировано на конкретной статистической проблеме в рамках справочного центра, это было бы более подходящим для этого форума.

— Восстановить Монику

Благодарю. Я отредактировал вопрос, чтобы сделать его более конкретным. Дайте мне знать, если я должен отредактировать это больше.

— R Грег Стейси

На цифре 40000

Новости действительно сенсационные, но газета действительно хорошо обоснована. Дискуссии в моей лаборатории бушевали целыми днями, в общем, действительно необходимая критика, которая заставляет исследователей анализировать свою работу. Я рекомендую прочитать следующий комментарий Томаса Николса , одного из авторов статьи «Отказ кластера: почему из-за выводов фМРТ для пространственного экстента завышены ложноположительные показатели» (извините за длинную цитату).

Однако есть одно число, о котором я сожалею: 40000. Пытаясь сослаться на важность дисциплины ФМРТ, мы использовали оценку всей литературы по ФМРТ как число исследований, на которые повлияли наши выводы. В свою защиту мы обнаружили проблемы с выводом размера кластера в целом (серьезный для P = 0,01 CDT, смещенный для P = 0,001), метод доминирующего вывода, предполагающий, что большинство литературы было затронуто. Число в заявлении о воздействии, однако, было подхвачено популярной прессой и вызвало небольшой твиттер-шторм. Поэтому я считаю своим долгом сделать хотя бы приблизительную оценку «На сколько статей влияет наша работа?». Я не библиометрист, и это действительно грубое и готовое упражнение, но, надеюсь, оно дает представление о величине проблемы.

Код для анализа (в Matlab) приведен ниже, но здесь есть тощий: Основываясь на некоторых разумных вероятностных вычислениях, но, возможно, хрупких выборках литературы, я оцениваю, что около 15 000 статей используют вывод размера кластера с коррекцией для множественного тестирования; из них около 3500 используют CDT с P = 0,01. 3500 - это около 9% всей литературы, или, что более полезно, 11% статей, содержащих оригинальные данные. (Конечно, некоторые из этих 15 000 или 3500 могут использовать непараметрический вывод, но, к сожалению, это редко для fMRI - напротив, это инструмент вывода по умолчанию для структурного анализа VBM / DTI в FSL).

Я, честно говоря, думал, что это число будет выше, но не осознавал большую долю исследований, в которых никогда не использовались какие-либо множественные тестовые исправления. (Невозможно завышать исправленные значения, если вы не исправляете!) . Эти расчеты показывают, что в 13 000 работ не использовалась многократная корректировка тестирования. Конечно, некоторые из них могут использовать области, представляющие интерес, или анализ подобъемов, но это очень мало (например, результаты клинических испытаний), которые вообще не имеют множественности. Наша статья не относится непосредственно к этой группе, но для публикаций, в которых использовалась народная коррекция множественного тестирования, P <0,001 & k> 10, наша статья показывает, что этот подход имеет семейные ошибки, значительно превышающие 50%.

Итак, мы говорим, что 3500 статей «неправильные»? По-разному. Наши результаты показывают, что CDT P = 0,01 результаты имеют завышенные P-значения, но каждое исследование должно быть изучено ... если эффекты действительно сильны, вероятно, не имеет значения, если P-значения смещены, и научный вывод останется неизменным. Но если эффекты действительно слабые, то результаты могут действительно соответствовать шуму . И как насчет тех 13 000 статей без исправления, особенно распространенных в ранней литературе? Нет, их тоже не следует выбрасывать из-под контроля, но для этих работ нужен особенно изумленный глаз, особенно при сравнении их с новыми ссылками с улучшенными методологическими стандартами.

Он также включает эту таблицу в конце:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

По сути, SPM (статистическое параметрическое картирование, набор инструментов для Matlab) является наиболее широко используемым инструментом для исследований нейробиологии ФМРТ. Если вы посмотрите на документ, который вы увидите, используя CDT с P = 0,001 (стандарт) для кластеров в SPM, то вы получите почти ожидаемый уровень ошибок по семейным показателям.

Авторы даже наполнили список ошибок из-за формулировки статьи:

Учитывая широко распространенное неправильное толкование нашей статьи, Eklund и др., Отказ кластера: почему выводы fMRI для пространственной протяженности привели к увеличению количества ложноположительных результатов, мы подали ошибку в редакцию PNAS:

Поправки к Eklund et al., Кластерный сбой: почему выводы по фМРТ для пространственной протяженности привели к завышенным ошибкам. Эклунд, Андерс; Николс, Томас Е; Кнутссон, Ганс

Два предложения были сформулированы плохо, и их легко можно было бы неправильно истолковать как преувеличивающие наши результаты.

Последнее предложение заявления о значимости должно гласить: «Эти результаты ставят под сомнение достоверность ряда исследований МРТ и могут оказать большое влияние на интерпретацию слабо значимых результатов нейровизуализации».

Первое предложение после заголовка «Будущее ФМРТ» должно было гласить: «Из-за печальной практики архивирования и обмена данными маловероятно, что проблемные анализы могут быть переделаны».

Они заменяют два предложения, которые по ошибке подразумевали, что наша работа затронула все 40 000 публикаций (см. Библиометрическую оценку кластерного вывода, чтобы оценить, какая часть литературы потенциально затронута).

После первоначального отклонения информации об ошибках на том основании, что это исправляющее толкование, а не факт, PNAS согласились опубликовать его, как мы представили выше.

На так называемую ошибку

В некоторых новостях также упоминается ошибка как причина недействительности исследований. Действительно, один из инструментов AFNI неправильно корректировал выводы , и это было решено после того, как препринт был опубликован в arXiv .

Статистический вывод, используемый при функциональном нейровизуализации

Функциональное нейровизуализация включает в себя множество методов, которые направлены на измерение активности нейронов в головном мозге (например, МРТ, ЭЭГ, МЭГ, NIRS, PET и SPECT). Они основаны на разных контрастных механизмах. МРТ основана на контрасте, зависящем от уровня кислорода в крови (BOLD). В основанном на задаче МРТ, при наличии стимула, нейроны в головном мозге, ответственные за прием этой стимуляции, начинают потреблять энергию, и это вызывает гемодинамический ответ, изменяющий магнитный резонансный сигнал ( ) вблизи набранных микро -vascularization. $\approx 5\%$

Используя обобщенную линейную модель (GLM), вы определяете, какие временные ряды воксельных сигналов коррелируют с дизайном парадигмы вашего эксперимента (обычно булевы временные ряды, свернутые с канонической функцией гемодинамического отклика, но существуют вариации).

Таким образом, этот GLM дал вам, насколько каждый временной ряд вокселей напоминает задачу. Теперь, скажем, у вас есть две группы людей: пациенты и контроли обычно. Сравнение показателей GLM между группами можно использовать, чтобы показать, как состояние групп модулирует паттерн «активации» их мозга.

Воксельное сравнение между группами выполнимо, но из-за функции разброса точек, присущей оборудованию, и этапа предварительной обработки сглаживания не стоит ожидать, что вокселы будут по отдельности переносить всю информацию. Разница в вокселях между группами должна быть фактически распределена по соседним вокселям.

Таким образом, проводится кластерное сравнение , то есть рассматриваются только различия между группами, которые образуют кластеры. Этот порог степени кластера является наиболее популярным методом коррекции множественного сравнения в исследованиях МРТ. Проблема лежит здесь.

SPM и FSL зависят от гауссовой теории случайных полей (RFT) для FWE-скорректированного воксельного и кластерного вывода. Однако кластерный вывод RFT зависит от двух дополнительных предположений. Первое предположение состоит в том, что пространственная гладкость сигнала fMRI постоянна по всему мозгу, а второе предположение заключается в том, что пространственная автокорреляционная функция имеет определенную форму (квадрат экспоненциальной) (30)

В SPM по крайней мере вы должны установить номинальную скорость FWE, а также порог определения кластера (CDT). По сути, SPM обнаруживает, что воксели тесно связаны с задачей, и после порогового значения с помощью CDT соседние из них объединяются в кластеры. Размеры этих кластеров сравниваются с ожидаемой протяженностью кластера из теории случайных полей (RFT) с учетом набора FWER [ 1 ].

Теория случайных полей требует, чтобы карта активности была гладкой, чтобы быть хорошим приближением решетки к случайным полям. Это связано с количеством сглаживания, которое применяется к объемам. Сглаживание также влияет на предположение о том, что остатки нормально распределены, поскольку сглаживание по центральной предельной теореме сделает данные более гауссовыми.

Авторы показали в [ 1 ], что ожидаемые размеры кластеров от RFT действительно малы по сравнению с порогами протяженности кластеров, полученными в результате тестирования случайной перестановки (RPT).

В их самой последней работе данные о состоянии покоя (еще один способ фМРТ, когда участникам предписывается не думать ни о чем конкретном) использовались так, как если бы люди выполняли задачу во время получения изображения, а сравнение групп проводилось по вокселям и кластерам. -wise. Наблюдаемая ложноположительная ошибка (т. Е. Когда вы наблюдаете различия в отклике сигнала на виртуальное задание между группами) должна быть разумно ниже, чем ожидаемая скорость FWE, установленная на . Повторяя этот анализ миллионы раз в группах случайной выборки с различными парадигмами, было показано, что большинство наблюдаемых значений FWE выше, чем приемлемые. $\alpha = 0.05$

@amoeba поднял эти два очень важных вопроса в комментариях:

(1) Эклунд и соавт. В документе PNAS говорится о «номинальном уровне 5%» всех тестов (см., Например, горизонтальную черную линию на рис. 1). Однако CDT на одном и том же рисунке варьируется и может составлять, например, 0,01 и 0,001. Как пороговое значение CDT связано с номинальной частотой ошибок типа I? Я смущен этим. (2) Вы видели ответ Карла Фристона http://arxiv.org/abs/1606.08199 ? Я читал это, но я не совсем уверен, что они говорят: правильно ли я понимаю, что они согласны с Eklund et al. но скажите, что это «хорошо известная» проблема?

(1) Хороший вопрос. Я на самом деле пересмотрел свои ссылки, давайте посмотрим, смогу ли я прояснить ситуацию сейчас. Кластерный вывод основан на экстентах кластеров, которые формируются после применения первичного порога ( CDT, который является произвольным ). Во вторичном анализе применяется порог количества вокселей на кластер . Этот порог основан на ожидаемом распределении нулевых экстентов кластера, которое может быть оценено из теории (например, RFT), и устанавливает номинальный FWER. Хорошая ссылка - [ 2 ].

(2) Спасибо за эту ссылку, не видел его раньше. Фландин и Фристон утверждают, что Eklund et al. подтвердила вывод RFT, потому что они в основном показали, что при соблюдении его предположений (относительно CDT и сглаживания) результаты непредвзяты. В этом свете новые результаты показывают, что различные методы в литературе имеют тенденцию отклонять выводы, поскольку они разрушают допущения RFT.

На множественные сравнения

Также хорошо известно, что многие исследования в области нейробиологии не подходят для множественных сравнений, по оценкам от 10% до 40% литературы. Но это не учитывается этим требованием, все знают, что эти бумаги имеют хрупкую ценность и, возможно, огромные ложные положительные показатели.

На FWER свыше 70%

Авторы также сообщили о процедуре, при которой FWER превышает 70%. Эта «народная» процедура заключается в применении CDT для сохранения только очень значимых кластеров, а затем в применении другого произвольно выбранного порога экстента кластера (по количеству вокселей). Это, иногда называемое «установление вывода», имеет слабую статистическую базу и, возможно, дает наименее достоверные результаты.

Предыдущие отчеты

Те же авторы уже сообщали о проблемах с валидностью СЗМ [ 1 ] в отдельных анализах. Есть и другие цитируемые работы в этой области.

Любопытно, что несколько отчетов о групповом и индивидуальном анализе на основе смоделированных данных пришли к выводу, что порог RFT был, по сути, консервативным. Благодаря последним достижениям в области вычислительной мощности, хотя RPT может быть гораздо проще выполнен на реальных данных, что свидетельствует о значительных расхождениях с RFT.

ОБНОВЛЕНИЕ: 18 октября 2017

Комментарий к «отказу кластера» появился в июне прошлого года [ 3 ]. Там Мюллер и соавт. утверждают, что результаты, представленные в работе Eklund et al., могут быть связаны с конкретной техникой предварительной обработки изображений, использованной в их исследовании. По сути, они передискретировали функциональные изображения до более высокого разрешения перед сглаживанием (хотя, вероятно, это делают не все исследователи, это обычная процедура в большинстве программ анализа МРТ). Они также отмечают, что Фландин и Фристон этого не сделали. На самом деле я видел выступление Эклунда в том же месяце на ежегодном собрании Организации по картированию человеческого мозга (OHBM) в Ванкувере, но я не помню никаких комментариев по этому вопросу, но он кажется критически важным для вопроса.

[1] Эклунд А., Андерссон М., Джозефсон С., Йоханнессон М. и Кнутссон Х. (2012). Дает ли параметрический анализ МРТ с SPM достоверные результаты? Эмпирическое исследование 1484 наборов остальных данных. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. & Wager, TD (2014). Пороговое значение на основе кластерного экстента в анализе МРТ: подводные камни и рекомендации. Neuroimage, 91, 412-419.

[3] Мюллер К., Лепсиен Дж., Меллер Х. Э. и Ломанн Г. (2017). Комментарий: отказ кластера: почему выводы фМРТ для пространственной протяженности завышены ложноположительные показатели. Границы человеческой нейронауки, 11.

— поджигатель
источник

@Qroid Да для первой части предположение не выполняется (и это, вероятно, является причиной хорошей производительности теста непараметрической перестановки). Кластеры являются кластерами вокселей, то есть соседних вокселей, показывающих тот же эффект. Существует p-значение для определения кластера (порог определения кластера).

— Firebug

Этот ответ в основном сосредоточен на том, является ли это 40000 или каким-либо другим числом, но я думаю, что для многих здесь было бы более интересно, если бы вы могли суммировать основные дебаты (что такое кластеры? В чем проблема с пространственными корреляциями для проверки гипотез? действительно думаешь об этом раньше? и т. д.)

— амеба говорит восстановить Монику

Еще раз спасибо. Кратко рассмотрев Woo et al. 2014, теперь я больше уверен, почему Eklund et al. сделал это в PNAS и, следовательно, вызвал такую бурю в популярной прессе и вокруг блогов. Не были Ву и соавт. говорить более или менее то же самое? Вот это, прямо в их «выделенном» блобе: «Другая ловушка - это увеличение ложных срабатываний, когда используется либеральный первичный порог».

— говорит амеба: восстанови Монику

Понимаю. Таким образом, я понимаю, что с научной точки зрения ничего особенного не произошло сейчас: проблема с либеральными CDT была известна в течение многих лет, обсуждалась в нескольких статьях и показывалась в различных симуляциях различными исследователями. (Тем не менее, некоторые исследователи продолжали использовать такие опасно либеральные CDT.) Eklund et al. 2016 году повезло, что его опубликовали в «громком» журнале и бу! - все сейчас говорят об этом, как будто это откровение.

— говорит амеба: восстанови Монику

@amoeba Сообщество нейробиологов нуждается в статистическом разгоне, вроде того, что произошло в прикладной психологии (возможно, не так радикально, как запрет p-значений). Многие документы, утверждающие статистическую значимость, не имеют статистической строгости, люди используют инструменты и параметры, которые делают «результаты».

— Поджигатель