Почему нарушитель должен быть причинно связан с результатом? Достаточно ли будет связывающего с результатом?
Нет, этого недостаточно.
Давайте начнем со случая, когда у вас может быть переменная, которая связана как с результатом, так и с лечением, но контроль за ней может повлиять на вашу оценку.
Например, рассмотрим следующий причинный график, полученный от Перла , где - коллайдер до обработки:Z
В этом случае нет никаких проблем, вы можете оценить влияние X на Y напрямую.
Заметьте, однако, что Z связан как с лечением, так и с результатом. Но это все еще не нарушитель. Фактически, если вы контролируете Z в этом случае, вы смещаете свою оценку. Эта ситуация называется M-смещением (из-за структуры графа).
Другой подобный, более простой, случай , когда вы не должны контролировать, когда переменная является результатом оба лечения и исход . Возьмите этот простой график коллайдера:ИксY
Здесь, опять же, Z ассоциируется с X и Y, но это не соучредитель. Вы не должны контролировать это.
Теперь стоит заметить, что даже если переменная причинно связана с результатом , она также не обязательно является определяющим фактором.
Давайте возьмем случай посредников, на простом графике ниже:
Если вы хотите измерить общее влияние D на Y, вы не должны контролировать вещи, которые опосредуют этот эффект - в данном случае M. То есть M причинно связано с Y, но не является определяющим в отношении суммарное влияние D на Y тоже.
Заметьте, однако, что определить конфоуд намного проще, чем определить, что такое конфоундер . Для более строгого обсуждения определения confouder , вы можете прочитать эту статью VanderWeele и Shpitser.
Почему это так? Потому что основная концепция здесь - это само смешение, а не смешение. Для вашего вопроса исследования, вы должны спросить себя "как я могу устранить путаницу?" вместо "эта переменная является нарушителем?"
И, наконец, стоит отметить, что эти заблуждения все еще широко распространены. Просто чтобы проиллюстрировать, возьмите эту цитату из статьи 2016 года :
Причинный вывод в отсутствие рандомизированного эксперимента или строгого квазиэкспериментального плана требует соответствующего согласования всех переменных до лечения, которые предсказывают как лечение, так и результат, также известные как смешанные ковариаты.
Как мы показали в предыдущих примерах, это неверно. Определяющие факторы не являются «всеми переменными до лечения, которые предсказывают как лечение, так и результат». Контроль за всеми ними может не потребоваться для устранения путаницы, или это может даже повлиять на ваши результаты. Жемчужина имеет очень хороший обзор о путанице здесь.