Объяснить корректировку модели на простом английском

14

Читая о методах и результатах статистического анализа, особенно в эпидемиологии, я очень часто слышу о корректировке или контроле моделей.

Как бы вы объяснили не статистику цель этого? Как вы интерпретируете свои результаты после контроля определенной переменной?

Небольшой проход в Stata или R, или указатель на один онлайн, станет настоящим украшением.

regression modeling epidemiology

— Радек
источник

29

Проще всего объяснить на примере:

Представьте себе, что исследование показало, что люди, которые смотрели финал Кубка мира, чаще страдали от сердечного приступа во время матча или в последующие 24 часа, чем те, кто его не смотрел. Должно ли правительство запретить футбол на телевидении? Но мужчины чаще смотрят футбол, чем женщины, и мужчины также чаще страдают от сердечного приступа, чем женщины. Таким образом, связь между просмотром футбола и сердечными приступами может быть объяснена третьим фактором, таким как секс, который влияет на оба. (Социологи проводят здесь различие между полом , культурной концепцией, связанной с наблюдением за футболом, и сексом.биологическая категория, которая связана с частотой сердечных приступов, но эти два фактора очень сильно коррелируют, поэтому я буду игнорировать это различие для простоты.)

Статистики, и особенно эпидемиологи, называют такой третий фактор спутником , а феномен смешанным . Самый очевидный способ устранить проблему - взглянуть на связь между наблюдением за футболом и частотой сердечных приступов у мужчин и женщин по отдельности или на жаргоне для стратификации по полу. Если мы обнаружим, что связь (если она еще есть) одинакова для обоих полов, мы можем затем объединить две оценки ассоциации для обоих полов. Затем говорят, что полученная оценка связи между наблюдением за футболом и частотой сердечных приступов корректируется или контролируется по полу.

Мы, вероятно, также хотели бы контролировать другие факторы таким же образом. Возраст является еще одним очевидным (на самом деле эпидемиологи либо расслаивают, либо корректируют / контролируют почти каждую связь по возрасту и полу). Социально-экономический класс, вероятно, другой. Другие могут стать хитрее, например, следует ли нам корректировать потребление пива во время просмотра матча? Возможно да, если мы заинтересованы в эффекте стресса от просмотра матча в одиночку; но, может быть, нет, если мы собираемся запретить трансляцию футбольных матчей чемпионата мира по футболу, что также уменьшит потребление пива. Является ли данная переменная определяющим фактором или нет, зависит от того, на какой именно вопрос мы хотим ответить, и это может потребовать очень тщательного обдумывания и стать довольно хитрым и даже спорным.

Очевидно, что мы можем захотеть скорректировать / контролировать несколько факторов, некоторые из которых могут быть измерены в нескольких категориях (например, социальный класс), в то время как другие могут быть непрерывными (например, возраст). Мы могли бы иметь дело с непрерывными, разбившись на (возрастные) группы, превратив их в категориальные. Скажем, у нас есть 2 пола, 5 социальных групп и 7 возрастных групп. Теперь мы можем взглянуть на связь между наблюдением за футболом и частотой сердечных приступов в 2 × 5 × 7 = 70 стратах. Но если наше исследование довольно маленькое, поэтому некоторые из этих слоев содержат очень мало людей, мы столкнемся с проблемами при таком подходе. И на практике мы можем захотеть скорректировать дюжину или более переменных. Альтернативный способ корректировки / контроля переменных, который особенно полезен, когда их много, обеспечивается регрессионным анализом.с несколькими зависимыми переменными, иногда называемыми многомерным регрессионным анализом. (Существуют различные типы моделей регрессии в зависимости от типа переменной результата: регрессия наименьших квадратов, логистическая регрессия, регрессия пропорциональных рисков (Кокса) ...). В обсервационных исследованиях, в отличие от экспериментов, мы почти всегда хотим приспособиться ко многим потенциальным нарушителям, поэтому на практике регулирование / контроль посредников часто осуществляется с помощью регрессионного анализа, хотя есть и другие альтернативы, такие как стандартизация, взвешивание, склонность оценка соответствия ...

— универсальный
источник

3

+1 (хотя это заслуживает как минимум +3) - очень тщательно и всесторонне. Сделал весь вопрос намного понятнее для меня. Благодарность!

— Радек

«Альтернативный способ корректировки / контроля переменных, который особенно полезен, когда их много, обеспечивается с помощью регрессионного анализа с несколькими зависимыми переменными, иногда известного как многомерный регрессионный анализ». это должно быть "независимым" или я неправильно понимаю? и более распространенный жаргон для этого, «множественная регрессия»? (я знаю , что это спорно)

— Ричард DiSalvo

10

Onestop объяснил это довольно хорошо, я просто приведу простой пример R с составленными данными. Скажем, х это вес, а у рост, и мы хотим выяснить, есть ли разница между мужчинами и женщинами:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Вы можете видеть, что без учета веса (в anova (lm1)) разница между полами очень мала, но когда вес учитывается как ковариата (с учетом lm2), тогда разница становится более очевидной.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Мэтт Альбрехт
источник