Лучшая практика при анализе схем контроля до лечения


53

Представьте себе следующий общий дизайн:

  • 100 участников случайным образом распределяются либо на лечение, либо на контрольную группу
  • зависимая переменная является числовой и измеряется до и после обработки

Три очевидных варианта для анализа таких данных:

  • Проверьте эффект взаимодействия группы по времени в смешанном ANOVA
  • Сделайте ANCOVA с условием в качестве IV и предварительным измерением в качестве ковариации и последующим измерением в качестве DV
  • Сделайте t-тест с условием, как IV и оценки перед изменением как DV

Вопрос:

  • Каков наилучший способ анализа таких данных?
  • Есть ли причины предпочитать один подход другому?

1
Когда вы говорите «условие», вы имеете в виду групповое назначение?
pmgjones

1
@propofol: да. извинения, если мой язык не ясен.
Jeromy Anglim

1
Существуют также параметрические методы «N-of-1» для статистической оценки временных данных для отдельных наблюдений. Пример применения: ncbi.nlm.nih.gov/pubmed/2039432 Сравнительные методы: europepmc.org/abstract/MED/10557859/...
user31256

Ответы:


34

По этой теме имеется огромное количество литературы (оценка изменений / прироста), и я думаю, что лучшие ссылки приходят из биомедицинской области, например

Senn, S (2007). Статистические проблемы в разработке лекарств . Уайли (глава 7 с. 96-112)

В биомедицинских исследованиях интересная работа была также проделана при изучении перекрестных исследований (особенно в отношении эффектов переноса , хотя я не знаю, насколько это применимо к вашему исследованию).

От оценки выигрыша t до ANCOVA F (и наоборот) от Knapp & Schaffer, представлен интересный обзор подхода ANCOVA против t (так называемый парадокс Лорда). Простой анализ показателей изменений не является рекомендуемым способом для предварительного / последующего проектирования, согласно Сенну в его статье « Изменение по сравнению с исходным уровнем и повторный анализ ковариации» (Stat. Med. 2006 25 (24)). Кроме того, использование модели смешанных эффектов (например, для учета корреляции между двумя временными точками) не лучше, потому что вам действительно нужно использовать «предварительное» измерение в качестве ковариации для повышения точности (посредством корректировки). Очень кратко:

  • Использование оценки изменений (после до, или результат базовый уровень) не решает проблему дисбаланса; корреляция между до и после измерения составляет <1, а корреляция между до и (после до), как правило, отрицательная - из этого следует, что если лечение (распределение вашей группы), измеренное по необработанным оценкам, оказывается несправедливым недостатком по сравнению контролировать, это будет несправедливым преимуществом с изменениями оценки.- ----
  • Дисперсия оценки, используемой в ANCOVA, как правило, ниже, чем дисперсия для необработанных или измененных оценок (если корреляция между до и после не равна 1).
  • Если до / после отношения отличаются между двумя группами (уклон), это не такая большая проблема, как для любых других методов (подход оценки изменений также предполагает, что отношения между двумя группами идентичны - гипотеза параллельного уклона) ).
  • В соответствии с нулевой гипотезой о равенстве лечения (о результатах) не ожидается никакого взаимодействия лечения x базовый уровень; опасно подходить к такой модели, но в этом случае необходимо использовать центрированные базовые линии (в противном случае эффект лечения оценивается в ковариатическом начале).

Мне также нравятся мифы о десятибалльной шкале от Эдвардса, хотя основное внимание уделяется отличиям в другом контексте; но вот аннотированная библиография по анализу изменений до публикации (к сожалению, она не охватывает очень недавнюю работу). Ван Брекелен также сравнил ANOVA и ANCOVA в рандомизированных и нерандомизированных условиях, и его выводы подтверждают идею, что ANCOVA следует отдавать предпочтение, по крайней мере в рандомизированных исследованиях (которые предотвращают регрессию до среднего эффекта).


Просто чтобы уточнить: вы имеете в виду, что ANCOVA с предварительными тестами в качестве ковариат является лучшим вариантом?
mkt - Восстановить Монику

17

Даниэль Б. Райт обсуждает это в разделе 5 своей статьи « Подружиться с вашими данными» . Он предлагает (с.130):

Единственная процедура, которая всегда верна в этой ситуации, - это диаграмма рассеяния, сравнивающая результаты в момент времени 2 с результатами в момент времени 1 для разных групп. В большинстве случаев вы должны анализировать данные несколькими способами. Если подходы дают разные результаты ... подумайте более внимательно о модели, подразумеваемой каждым.

Он рекомендует следующие статьи для дальнейшего чтения:

  • Хэнд, DJ (1994). Деконструкция статистических вопросов. Журнал Королевского статистического общества: A, 157, 317–356.
  • Господь Ф.М. (1967). Парадокс в интерпретации групповых сравнений. Психологический вестник, 72, 304–305. Бесплатный PDF
  • Wainer, H. (1991). Поправка на дифференциальные базовые ставки: опять парадокс Господа. Психологический вестник, 109, 147–151. Бесплатный PDF

9

Наиболее распространенные стратегии:

  1. Повторные измерения ANOVA с одним фактором внутри субъекта (до и после теста) и одним фактором между субъектом (лечение против контроля).
  2. ANCOVA по оценкам после лечения, с оценкой до лечения в качестве ковариации и лечением в качестве независимой переменной. Интуитивно понятно, что идея заключается в том, что проверка различий между обеими группами - это именно то, что вам нужно, и включение баллов перед тестом, поскольку ковариата может увеличить мощность по сравнению с простым t-тестом или ANOVA.

Существует много дискуссий о толковании, предположениях и, по-видимому, парадоксальных различиях между этими двумя подходами и более сложными альтернативами (особенно, когда участники не могут быть случайно назначены для лечения), но я думаю, что они остаются довольно стандартными.

Одним из важных источников путаницы является то, что для ANOVA эффект интереса, скорее всего, является взаимодействием между временем и лечением, а не основным эффектом лечения. Кстати, F-критерий для этого термина взаимодействия даст тот же результат, что и независимый выборочный критерий Стьюдента для оценок усиления (т. Е. Оценок, полученных путем вычитания оценки перед тестом из оценки после теста для каждого участника), так что вы можете также пойти на это.

Если всего этого слишком много, у вас нет времени, чтобы выяснить это, и вы не можете получить некоторую помощь от статистика, быстрый и грязный, но ни в коем случае не совсем абсурдный подход состоял бы в простом сравнении баллов после теста с независимый выборочный t-тест, игнорирующий предварительные тестовые значения. Это имеет смысл только в том случае, если участники фактически были случайным образом распределены в группу лечения или контрольную группу .

Наконец, это само по себе не очень хорошая причина для выбора, но я подозреваю, что подход 2 выше (ANCOVA) - это то, что в настоящее время считается правильным подходом в психологии, поэтому, если вы выбираете что-то другое, вам, возможно, придется объяснить методику подробно или обосновать Себя кому-то, кто убежден, например, что «баллы за достижения, как известно, плохие».


1
Я бы сказал, что первая рекомендация, повторные измерения ANOVA, не подходит для анализа данных до публикации. На исходном уровне закодировано ли лечение до 0 в группе вмешательства? В любом случае, это вновь вводит эффект Хоторна. Систематические различия между контрольными группами до и после лечения сводятся к случайным изменениям. RM AN C OVA оправдано, когда есть несколько измерений в течение постпериода, и базовые значения все еще корректируются как ковариат или используются в качестве показателя усиления.
AdamO


-2

Так как у вас есть два средства (либо на конкретный предмет, либо на сумму инвентаря), нет причин рассматривать ANOVA. Парный t-тест, вероятно, уместен; это может помочь вам выбрать, какой t-тест вам нужен.

Хотите посмотреть результаты по конкретным предметам или общие оценки? Если вы хотите провести анализ предмета, это может быть полезной отправной точкой.


4
Как насчет контрольной группы? Парный t-тест на всех данных звучит как плохая идея и, конечно, не решает основной вопрос (эффективно ли лечение?). Парный t-тест, ограниченный группой лечения, является правдоподобной стратегией, но игнорирование контрольной группы отбрасывает много данных и дает гораздо более слабые доказательства того, что вмешательство фактически является активным ингредиентом. ANOVA на самом деле является распространенным - если его часто критикуют - способом анализировать этот дизайн.
Гала
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.