В недавней работе Norton et al. (2018) утверждают, что
Разные отношения шансов из одного и того же исследования нельзя сравнивать, когда статистические модели, которые приводят к оценкам отношения шансов, имеют разные объясняющие переменные, поскольку каждая модель имеет свой произвольный коэффициент масштабирования. Также нельзя сравнивать величину отношения шансов из одного исследования с величиной отношения шансов из другого исследования, потому что разные образцы и разные спецификации моделей будут иметь разные произвольные коэффициенты масштабирования. Еще одним следствием является то, что величины отношения шансов данной ассоциации в нескольких исследованиях не могут быть синтезированы в мета-анализе.
Небольшая симуляция иллюстрирует это (код R находится внизу вопроса). Предположим, что истинная модель:
Представьте далее, что одни и те же данные, сгенерированные вышеуказанной моделью, анализируются четырьмя разными исследователями с использованием логистической регрессии. Исследователь 1 включает только как ковариату, исследователь 2 включает и и и так далее. Средние смоделированные оценки отношения шансов для четырех исследователей составили:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Очевидно, что только исследователи 3 и 4 получают правильное соотношение шансов около а исследователи 1 и 2 - нет. Этого не происходит при линейной регрессии, что может быть легко показано аналогичным моделированием (здесь не показано). Я должен признаться, что этот результат был довольно удивительным для меня, хотя эта проблема, кажется, хорошо известна . Эрнан и др. (2011) называют это «математической странностью» вместо смещения.[ 2 ]
Мои вопросы:
- Если отношения шансов в основном несопоставимы между исследованиями и моделями, как мы можем объединить результаты различных исследований для бинарных результатов?
- Что можно сказать о бесчисленных мета-анализов, так и комбинируют отношения шансов из различных исследований , в которых каждое исследование , возможно , с поправкой на другой набор регрессоров? Они по сути бесполезны?
Ссылки
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): коэффициенты шансов - наилучшая текущая практика и использование. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): коэффициенты входа и интерпретация моделей Logit. Health Serv Res. 53 (2): 859-878.
[3]: Эрнан М.А., Клейтон Д., Кейдинг Н. (2011): парадокс Симпсона раскрылся. Int J Epidemiol 40: 780-785.
раскрытие
Вопрос (включая код R) является модифицированной версией вопроса, заданного пользователем timdisher для методов данных .
Код R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios