Как определить, какое исследование лучше, если они дают противоречивые результаты?

11

Вы так часто сталкиваетесь в прессе с различными исследованиями, которые дают направленно противоположные результаты. Они могут быть связаны с тестированием нового отпускаемого по рецепту лекарства или заслугой конкретного питательного вещества или чего-либо еще в этом отношении.

Когда два таких исследования приводят к противоречивым результатам, как вы можете определить, какое из двух ближе всего к истине?

hypothesis-testing clinical-trials

— Sympa
источник

Может быть, это должно быть CW? Не будет однозначного ответа на этот вопрос, и может возникнуть множество точек зрения и подходов.

— whuber

2

@whuber Я бы проголосовал против CW, потому что даже если бы были разные точки зрения, вероятно, был бы один лучший подход. Это похоже на то, как одна и та же гипотеза может быть проверена с использованием различных структур / моделей, но, вероятно, будет один лучший подход.

@Srikant: В любом конкретном случае я могу представить, что вы могли бы собрать сильную защиту в поддержку своего утверждения. В целом, хотя - какова текущая ситуация - лучший ответ будет зависеть от контекста. В качестве простого (и неполного) примера рассмотрим различия между оценкой пары спроектированных физических экспериментов (таких как измерение скорости света, где исторически большинство доверительных интервалов пропустили истину!) И наблюдательным исследованием в социальных науках ,

— whuber

@whuber Возможно, мы должны продолжить этот разговор на мета. Я признаю, что мне все еще неясно, когда использовать CW, а когда нет, но принять вашу точку зрения: тогда самым лучшим ответом на этот вопрос будет то, что ответ зависит от контекста, и объясните почему на нескольких примерах. В любом случае, я почему-то чувствую, что этот вопрос не должен быть CW, но я не могу сформулировать какие-либо другие причины, помимо тех, которые я изложил выше.

3

Я думаю, что ответа Джерома достаточно, если вы изучаете два экспериментальных исследования или фактический метаанализ. Но часто мы сталкиваемся с изучением двух неэкспериментальных исследований, и нам поручено оценить обоснованность этих двух разрозненных результатов.

Как следует из списка вопросов Сайруса , сама тема не поддается краткому ответу, и целые книги по существу направлены на решение такого вопроса. Для тех, кто заинтересован в проведении исследований не экспериментальных данных, я настоятельно рекомендую вам прочитать

Экспериментальные и квазиэкспериментальные проекты для обобщенного причинного следствия Уильяма Р. Шадиша, Томаса Д. Кука, Дональда Томаса Кэмпбелла (также я слышал, что старые версии этого текста так же хороши).

Несколько пунктов, которые упоминал Джероми (больший размер выборки и большая методологическая строгость), и все, что упоминает Сайрус, будет считаться тем, что Кэмпбелл и Кук называют «Внутренняя достоверность». К ним относятся аспекты плана исследования и статистические методы, используемые для оценки взаимосвязи между X и Y. В частности, в качестве критиков нас беспокоят аспекты, которые могут повлиять на результаты и снизить достоверность результатов. Поскольку это форум, посвященный статистическому анализу, большая часть ответов сосредоточена вокруг статистических методов для обеспечения объективных оценок любых отношений, которые вы оцениваете. Но они являются другими аспектами плана исследования, не связанными со статистическим анализом, которые снижают достоверность результатов, независимо от того, к какой суровой степени прибегают в их статистическом анализе (например, упоминание Сайрусом нескольких аспектов точности эксперимента можно рассмотреть, но не решить с помощью статистические методы, и если они произойдут, всегда будет снижать достоверность результатов исследований). Существует много других аспектов внутренней валидности, которые становятся критически важными для оценки при сравнении результатов не экспериментальных исследований, которые здесь не упомянуты, и аспектов проектов исследований, которые могут различать достоверность результатов. Я не думаю, что здесь уместно вдаваться в подробности,

Кэмпбелл и Кук также ссылаются на «внешнюю достоверность» исследований. Этот аспект дизайна исследования часто намного меньше по объему и не заслуживает такого большого внимания, как внутренняя достоверность. Внешняя валидность, по сути, имеет дело с обобщенностью выводов, и я бы сказал, что неспециалисты часто могут достаточно хорошо оценить внешнюю валидность, если они знакомы с предметом. Короткая история, прочитанная книга Шэдиша, Кука и Кэмпбелла.

— Энди У
источник

8

Анализ меты литература имеет отношение к вашему вопросу. Используя мета-аналитические методы, вы можете получить оценку влияния интереса, объединенного между исследованиями. Такие методы часто взвешивают с точки зрения размера выборки.

В контексте метаанализа исследователи говорят о моделях с фиксированным и случайным эффектом (см. Hunter and Schmidt, 2002 ). Модель с фиксированным эффектом предполагает, что все исследования оценивают один и тот же популяционный эффект. Модель случайных эффектов предполагает, что исследования различаются по оцениваемому эффекту населения. Модель со случайными эффектами обычно более уместна.

По мере того, как все больше исследований накапливается при рассмотрении конкретных отношений, становятся возможными более сложные подходы. Например, вы можете кодировать исследования с точки зрения различных свойств, таких как воспринимаемое качество, а затем эмпирически исследовать, изменяется ли величина эффекта в зависимости от этих характеристик исследования. Помимо качества, могут быть некоторые теоретически значимые различия между исследованиями, которые могут смягчить взаимосвязь (например, характеристика образца, уровни дозировки и т. Д.).

В целом, я склонен доверять исследованиям с:

большие размеры выборки
большая методологическая строгость
подтверждающая ориентация (например, не исследование, в котором они проверяли корреляции между 100 различными питательными веществами и 50 показателями здоровья)
отсутствие конфликта интересов (например, не компанией, имеющей коммерческий интерес в показе отношений; не исследователем, у которого есть стимул к достижению значительного результата)

Но это говорит о том, что вам необходимо сохранять случайную выборку и теоретически значимые различия между исследованиями в качестве правдоподобного объяснения противоречивых результатов исследования.

— Джером англим
источник

Мне особенно нравится отношение правдоподобия как средство агрегирования доказательств в метаанализе; если у вас есть достаточно данных для расчета их для каждого исследования, вы просто вычисляете продукт по всем исследованиям, чтобы представить совокупные доказательства для / против гипотезы.

— Майк Лоуренс

Я прокомментировал (ир) актуальность мета-анализа после ответа Сайруса, но одобрил этот ответ для всего остального, особенно для пунктов с маркером.

— whuber

@whuber @ Вопрос Гаэтана предполагает, что одно исследование ближе к истине. Я пытаюсь сделать шаг назад и найти различия в результатах между исследованиями в рамках метааналитической структуры, признавая возможность того, что исследования могут быть одинакового качества, но объяснение может иметь случайная выборка или существенные различия.

— Джером Энглим

@whuber Даже с двумя исследованиями было бы возможно сформировать мета-аналитическую оценку эффекта интереса. Конечно, доверительный интервал оценки эффекта может быть большим. Но следует ожидать высокой степени неопределенности, если были проведены только два исследования, которые дают противоречивые результаты.

— Джером Энглим

5

Я бы не стал рассматривать метаанализ до тех пор, пока вы не изучите источники на предмет возможного смещения или отклонений в целевых группах населения. Если это исследования эффектов лечения, назначалось ли лечение случайным образом? Были ли отклонения от протокола? Было ли несоблюдение? Отсутствуют ли данные о результатах? Образцы были взяты из одного кадра? Был ли отказ от участия? Ошибки реализации? Правильно ли рассчитывались стандартные ошибки с учетом кластеризации и устойчивы ли они к различным параметрическим допущениям? Только после того, как вы ответили на эти вопросы, я думаю, что проблемы мета-анализа начинают входить в картину. Должно быть редким, что для любых двух исследований уместен метаанализ, если только вы не готовы сделать какие-то героические предположения.

— Кир
источник

Но не являются ли эти шаги уже частью мета-анализа?

— ЧЛ

3

@chl: Да, но суть в том, что эти шаги доходят до сути вопроса. Метаанализ будет полезен только тогда, когда есть много исследований (а не только два), и их достоинства уже были тщательно оценены. Вопрос, который стоит перед нами, на самом деле спрашивает, как в первую очередь оценивать качество исследования или пары противоречивых исследований. Сайрус указал на некоторые из многих аспектов этого; разумное лечение обычно требует одного или двух семестров обучения на университетском уровне. В этом свете я думаю, что его использование термина «героический» несколько занижено!

— whuber

1

@whuber Да, я согласен с тобой и @Cyrus. Конечно, оценка качества и достоверности предыдущих исследований является обязательным шагом (и для проверки каждого исследования требуется время, особенно когда нам приходится связываться с авторами, потому что в MS отсутствует информация); Я просто подумал, что это было частью мета-анализа, а «статистическая часть» сводится к получению количественной сводки достоверных результатов.

— ЧЛ