Проще всего объяснить на примере:
Представьте себе, что исследование показало, что люди, которые смотрели финал Кубка мира, чаще страдали от сердечного приступа во время матча или в последующие 24 часа, чем те, кто его не смотрел. Должно ли правительство запретить футбол на телевидении? Но мужчины чаще смотрят футбол, чем женщины, и мужчины также чаще страдают от сердечного приступа, чем женщины. Таким образом, связь между просмотром футбола и сердечными приступами может быть объяснена третьим фактором, таким как секс, который влияет на оба. (Социологи проводят здесь различие между полом , культурной концепцией, связанной с наблюдением за футболом, и сексом.биологическая категория, которая связана с частотой сердечных приступов, но эти два фактора очень сильно коррелируют, поэтому я буду игнорировать это различие для простоты.)
Статистики, и особенно эпидемиологи, называют такой третий фактор спутником , а феномен смешанным . Самый очевидный способ устранить проблему - взглянуть на связь между наблюдением за футболом и частотой сердечных приступов у мужчин и женщин по отдельности или на жаргоне для стратификации по полу. Если мы обнаружим, что связь (если она еще есть) одинакова для обоих полов, мы можем затем объединить две оценки ассоциации для обоих полов. Затем говорят, что полученная оценка связи между наблюдением за футболом и частотой сердечных приступов корректируется или контролируется по полу.
Мы, вероятно, также хотели бы контролировать другие факторы таким же образом. Возраст является еще одним очевидным (на самом деле эпидемиологи либо расслаивают, либо корректируют / контролируют почти каждую связь по возрасту и полу). Социально-экономический класс, вероятно, другой. Другие могут стать хитрее, например, следует ли нам корректировать потребление пива во время просмотра матча? Возможно да, если мы заинтересованы в эффекте стресса от просмотра матча в одиночку; но, может быть, нет, если мы собираемся запретить трансляцию футбольных матчей чемпионата мира по футболу, что также уменьшит потребление пива. Является ли данная переменная определяющим фактором или нет, зависит от того, на какой именно вопрос мы хотим ответить, и это может потребовать очень тщательного обдумывания и стать довольно хитрым и даже спорным.
Очевидно, что мы можем захотеть скорректировать / контролировать несколько факторов, некоторые из которых могут быть измерены в нескольких категориях (например, социальный класс), в то время как другие могут быть непрерывными (например, возраст). Мы могли бы иметь дело с непрерывными, разбившись на (возрастные) группы, превратив их в категориальные. Скажем, у нас есть 2 пола, 5 социальных групп и 7 возрастных групп. Теперь мы можем взглянуть на связь между наблюдением за футболом и частотой сердечных приступов в 2 × 5 × 7 = 70 стратах. Но если наше исследование довольно маленькое, поэтому некоторые из этих слоев содержат очень мало людей, мы столкнемся с проблемами при таком подходе. И на практике мы можем захотеть скорректировать дюжину или более переменных. Альтернативный способ корректировки / контроля переменных, который особенно полезен, когда их много, обеспечивается регрессионным анализом.с несколькими зависимыми переменными, иногда называемыми многомерным регрессионным анализом. (Существуют различные типы моделей регрессии в зависимости от типа переменной результата: регрессия наименьших квадратов, логистическая регрессия, регрессия пропорциональных рисков (Кокса) ...). В обсервационных исследованиях, в отличие от экспериментов, мы почти всегда хотим приспособиться ко многим потенциальным нарушителям, поэтому на практике регулирование / контроль посредников часто осуществляется с помощью регрессионного анализа, хотя есть и другие альтернативы, такие как стандартизация, взвешивание, склонность оценка соответствия ...