Когда мы сравниваем группы по контрольным переменным, должны ли мы использовать тесты эквивалентности?

Во многих работах, в которых рассматриваются методы лечения и результаты, я вижу таблицы (обычно «таблица 1») того, что можно назвать переменными помех (часто демографическими, иногда медицинскими состояниями), с тестами значимости и текстом, такими как «группы были в целом схожи. не было существенных различий по XXXXX, см. таблицу ". Таким образом, ясная цель состоит в том, чтобы показать, что группы, назначенные для разных видов лечения, являются схожими.

Тем не менее, мне кажется, что это может быть «принятие нуля» и то, что мы должны делать (или требовать выполнения), это тесты эквивалентности.

Это может относиться к рандомизированным исследованиям или к наблюдательным исследованиям. Я что-то здесь упускаю?

equivalence controlling-for-a-variable

— Питер Флом - Восстановить Монику
источник

Я так понимаю, вы имеете в виду «таблицу 1». Вы спрашиваете о РКИ как таковых или наблюдательных исследованиях?

— gung - Восстановить Монику

@ Да, обычно это Таблица 1. Это могут быть обсервационные исследования или РКИ. Я отредактировал свой вопрос, чтобы отразить ваш комментарий.

— Питер Флом - Восстановить Монику

Даже если я рискну констатировать очевидное: есть несколько работ, посвященных этой проблеме (например, де Бур и др. (2015) ). Я думаю, что консенсус заключается в том, что тестирование гипотез следует отказаться от базовых таблиц. КОНСОРТ Заявление для клинических испытаний, а также заявление СТРОБА для наблюдательных исследований рекомендуют избегать гипотезы тестирования в базовых таблицах. Если тесты на эквивалентность лучше, я не знаю.

— COOLSerdash

Независимо от того, проводите ли вы тестирование на нуль или тест на эквивалентность, зависит от мотивации и влияет на обсуждение, которое можно извлечь из таблицы. Утверждение эквивалентности является очень сильным условием, и я подозреваю, что в большинстве случаев нет необходимости, если автор не хочет делать убедительные выводы о демографии и т. Д. Было бы лучше и целесообразнее иметь формализованную процедуру количественной оценки риска предвзятости в отношении дисбалансов в связанных демография. Я не изучал это, но был бы заинтересован в других мнениях относительно того, как это может выглядеть.

— ReneBt

Это сложный вопрос, который ставит много связанных вопросов: 1) четкое определение гипотезы, 2) понимание того, какие причинные механизмы (могут) лежать в основе предполагаемого эффекта, и 3) выбор / стиль представления.

Вы правы , что, если мы будем применять звуковую статистическую практику, чтобы утверждать , что «группы являются похожи», можно было бы выполнить проверку эквивалентности. Тем не менее, тесты эквивалентности страдают теми же проблемами, что и их аналог NHST: мощность является просто отражением размера выборки и количества сравнений: мы ожидаем различий, но их степень и влияние на основной анализ гораздо важнее.

Когда сталкиваешься с этими ситуациями, базовые сравнения почти всегда являются «красными сельдями». Лучшие методы (науки и статистики) могут быть применены. У меня есть несколько базовых концепций / ответов, которые я учитываю, отвечая на подобные вопросы.

Столбец «итого» важнее, чем столбцы с разбивкой по видам лечения; обсуждение этих ценностей оправдано .

В клинических испытаниях образец безопасности обычно анализируется. Это подмножество тех, кто сначала подошел, затем согласился, затем рандомизировал и, наконец, подвергся по крайней мере одной итерации контроля или лечения. В этом процессе мы сталкиваемся с различной степенью предвзятости участия.

Вероятно, наиболее важным и пропущенным аспектом этих исследований является представление результатов таблицы 1 в совокупности . Это позволяет достичь наиболее важной цели таблицы 1: продемонстрировать другим исследователям, насколько обобщенной является выборка исследования для более широкой группы населения, к которой применимы результаты.

Я нахожу удивительным, как зацикленные исследователи, читатели и рецензенты касаются тангенциальных тенденций в характеристиках пациентов, когда полностью игнорируются критерии включения / исключения и обобщенность выборки.

Мне стыдно сказать, что я был аналитиком в процессе, который упустил из виду это как проблему. Мы набрали пациентов, а затем, из-за логистических проблем, мы почти год ждали, прежде чем приступить к осуществлению вмешательства. Диаграмма консорт не только показала огромную разницу между этими периодами, но и выборка изменилась. Результат был в основном не / частично занятым, старше и здоровее, чем люди, которых мы собирались охватить. У меня были серьезные опасения по поводу обобщенности исследования, но было трудно лоббировать, чтобы эти опасения были известны.

Мощность и погрешность типа I тестов для выявления дисбаланса в базовых характеристиках зависят от фактического количества характеристик

Смысл представления такого подробного списка базовых переменных, как упоминалось ранее, состоит в том, чтобы дать полный снимок образца; их история болезни, лаборатории, лекарства и демография. Это все аспекты, которые врачи используют, чтобы рекомендовать лечение пациентам. Считается, что все они предсказывают результат. Но количество таких факторов ошеломляет. Можно сравнить до 30 различных переменных. Общий риск ошибки типа I составляет 1- (1-0,05) ^ 30 = 0,79. Бонферрони или перестановочные поправки целесообразны, если необходимо провести тестирование .

Статистическое тестирование в чистом виде должно быть беспристрастным и должно быть заранее определено. Тем не менее, выбор и представление базовых характеристик часто является относительным. Я чувствую, что последний подход уместен: если мы обнаружим, что, как и в моем исследовании, есть интересные черты, которые эффективно описывают выборку, мы должны иметь возможность выбрать представление этих значений ad hoc . Тестирование может быть выполнено, если оно имеет какую-либо ценность, но применяются обычные предостережения: они не являются интересными гипотезами, существует высокий риск путаницы в отношении того, что означают значимые и несущественные результаты, и результаты являются скорее отражением размер выборки и соображения презентации, чем любой правды.

Повторная рандомизация может быть выполнена, но только до того, как пациенты будут подвергаться лечению

Как я уже упоминал, анализируемый образец, как правило, является безопасным образцом. Тем не менее, рерандомизация является широко пропагандируемым и теоретически последовательным подходом к пациентам, которые не подвергались исследуемому лечению. Это относится только к настройкам, в которых выполняется пакетная регистрация. Здесь 100 участников набираются и рандомизируются. Если, например, вероятность относит высокую долю пожилых людей к одной группе, то выборка может быть рандомизирована, чтобы сбалансировать возраст. Это не может быть сделано с последовательной или ступенчатой регистрацией, которая является установкой, в которой проводится большинство испытаний. Это связано с тем, что время зачисления имеет тенденцию прогнозировать состояние пациента по распространенному «смещению» случая (сбивающий с толку инцидент и распространенные критерии приемлемости).

Сбалансированный дизайн не является обязательным условием для правильного вывода

Предположение о рандомизации говорит о том, что теоретически все участники будут в среднем иметь равные распределения ковариат. Однако, как уже упоминалось ранее, при сравнении 30 или более уровней совокупная вероятность дисбаланса не является ничтожной. На самом деле, дисбаланс ковариат может не иметь значения при рассмотрении целого.

Если рандомизация справедлива, мы можем видеть, что возраст повышен в группе лечения, но курение повышено в контрольной группе: оба эти фактора индивидуально влияют на риск исхода. Для эффективного и достоверного вывода необходимо, чтобы показатель склонности был сбалансирован между группами. Это гораздо более слабое состояние. К сожалению, склонность не может быть проверена на баланс без модели риска. Однако легко увидеть, что такая склонность зависит от комбинации ковариат и вероятности дисбаланса в склонностях в рандомизированной выборке гораздо менее вероятна, несмотря на то, что ее невозможно точно показать.

Если известна модель риска или присутствуют сильные предикторы результата, более эффективные и достоверные РКИ проводятся путем простой корректировки этих факторов независимо от того, сбалансированы ли они между группами лечения.

Об этом обсуждается в одной из моих любимых статей, 7 мифов о рандомизированных контролируемых испытаниях . Корректировка повышает эффективность, когда корректирующая переменная сильно предсказывает результат. Оказывается, что даже при идеальном балансе 50/50, с использованием, скажем, блокированной рандомизации или даже в качестве совпадения того, как была выполнена рандомизация, корректировка сократит CI, что потребует от меньшего количества участников иметь такое же мощное исследование; это снижает затраты и риски. Это шокирует, что это не делается чаще.

Наблюдательные исследования требуют контроля за путаницей, независимо от того, что показано в таблице 1

Предположение о рандомизации исключает смешение. С нерандомизированным лечением возникает путаница. Конфоундер - это переменная, которая является причиной результата и предсказывает получение квазиэкспериментального лечения. Не существует теста, чтобы определить, какие переменные являются / являются вызывающими. Риск заглянуть в данные, чтобы ответить на эти вопросы, заключается в том, что собеседники практически неотличимы от посредников или коллайдеров без совершенно точного измерения продольных значений (и даже тогда ...). Регулировка для посредников ослабляет любой эффект, регулировка коллайдера может вызвать любой тип смещения. Кроме того, не нужно настраивать общий набор противников, скорее, они должны удалить критерий черного хода.

Например, при исследовании функции легких и курения у подростков: дети более старшего возраста курят чаще, но, поскольку они выше, их функция легких выше. Оказывается, что одной лишь поправки на высоту достаточно для устранения смешения, поскольку она удовлетворяет критерию черного хода. Дальнейшая корректировка по возрасту просто теряет эффективность. Однако простая проверка «баланса» таблицы 1 у курильщиков и некурящих позволяет предположить, что как возраст, так и рост являются «несбалансированными» и поэтому должны контролироваться. Это неверно.

— Adamo
источник

Я согласен с этим и хорошо осведомлен о проблемах с p-значениями. (Вы найдете немного людей на этом сайте или более анти-р значение, чем я). И я все за лучшие методы, некоторые из которых вы поднимаете. Конечно, некоторые переменные могут быть подавителями (так что их включение увеличивает размер основного эффекта). Однако, если я, скажем, рецензирую статью для журнала, то считаете ли вы, что рекомендовать тесты эквивалентности для таблицы 1 - это хорошо, или вы хотели бы получить полный ответ здесь?

— Питер Флом - Восстановить Монику

@PeterFlom Теперь я вижу контекст немного лучше. Как статистический рецензент, я хотел бы рассмотреть вопрос о том, относится ли этот комментарий к последующему анализу. Если это не актуально, я бы посоветовал им вычеркнуть этот комментарий, так как он бесполезен. Если это уместно, я бы посоветовал им: а) рассмотреть более надежный подход к анализу или б) использовать анализ чувствительности, чтобы определить, есть ли возможное влияние. Баланс ковариат имеет значение только в том случае, если он влияет на анализ, поэтому я бы предпочел уделить внимание. Возможно, это не дизайн, подобранный по склонности?

— AdamO

@PeterFlom Как рецензент, не имеет ли смысла рекомендовать вообще избавляться от p-значений в «Таблице 1»?

— говорит амеба: восстанови монику

AdamO, отличный ответ (+1), но меня немного беспокоит рекомендация о том, что несколько «корректировок» тестирования «целесообразны» в контексте «Таблицы 1». Ошибка типа I имеет какое-либо значение здесь? Я чувствую, что в этом случае ошибка типа II на самом деле гораздо важнее (никто не хотел бы упустить тот факт, что некоторая базовая переменная отличается между лечением и контрольной группой). При использовании Bonferroni ошибка типа II значительно возрастет. Это связано с точкой зрения Питера о тестах эквивалентности: в некотором смысле Тип I и Тип II меняются местами, если вы переключаетесь на точку зрения «эквивалентности».

— говорит амеба, восстанови Монику

@amoeba Абсолютно. Если мы настаиваем на этом подходе (а не на моей рекомендации), NHST требуют, чтобы мы контролировали ошибку I типа. Я думаю, что моя точка зрения заключается в том, что мы должны контролировать FWER, потому что нам все равно, какая переменная не сбалансирована. Это может быть установлено на щедрое значение как 0,2. Я не знаю ни одного теста эквивалентности, для которого мощность возрастает с увеличением размера выборки, поэтому обоснование таких тестов является многословным, субъективным и неточным.

— AdamO