Когда неуместно контролировать переменную?


15

Я могу вспомнить хотя бы один наивный пример. Предположим, я хочу изучить отношения между X и Z. Я также подозреваю, что Y влияет на Z, поэтому я контролирую Y. Однако, как выясняется, без ведома меня X вызывает Y, а Y вызывает Z. Поэтому, контролируя для Y я «скрываю» отношения между X и Z, так как X не зависит от Z, заданного Y.

Теперь, в предыдущем примере, это может быть тот случай, когда я должен изучать отношения между X и Y и Y и Z. Однако, если бы я знал такие вещи априори, я бы не занимался наукой в первое место. Исследование, которое я ДЕЙСТВИТЕЛЬНО сделал, теперь предполагает, что нет никакой связи между X и Z, что не так. X и Z связаны между собой.

Это показано на следующей диаграмме зависимости. В правильном сценарии Z зависит от X и Y, а X и Y независимы. Мы справедливо контролируем Y, чтобы определить отношения между X и Z. В левом сценарии Z зависит от Y, который зависит от X. X и Z независимы, учитывая Y, поэтому связь между X и Z "скрывается", контролируя для Y.

variable_relationships

Мой вопрос в основном «Когда уместно контролировать переменную Y, а когда нет?» ... Может быть трудно или невозможно полностью исследовать отношения между X и Y, но, например, управление Y на данном уровне является опция. Как мы решаем, прежде чем проводить наше исследование, и каковы распространенные ошибки контроля слишком много или слишком мало?

Цитаты приветствуются.


7
Чтобы привести пример, ваша точная ситуация подходит для оценки воздействия расовой дискриминации. Пусть будет расой. Пусть Z будет заработной платой. Пусть Y будет образованием. Очевидно, что образование влияет на заработную плату, поэтому вы захотите контролировать это, НО, если расовая дискриминация приводит к тому, что расовое меньшинство получает худшее образование, тогда контроль над образованием может скрыть эту дискриминацию. Например. см. Нил и Джонсон (1996) . Как указывает ответ Алексис, вам нужно разобраться в деталях вашей проблемы. Нет простой кнопки для нажатия, которая решает все. XZY
Мэтью Ганн

1
Я не надеялся на простую кнопку, чтобы нажать. Действительно, я был бы весьма разочарован, если бы у моего вопроса был тривиальный ответ. :)
Скотт

1
@ Repmat Да. Тем не менее, 4 предположения оценки IV редко встречаются, и даже когда они, сила ассоциаций может сделать оценку IV дать смещенные результаты. См., Например, Оценка причинности Эрнана и Робинса (полное цитирование и ссылка в моем ответе), глава 16: Оценка инструментальных переменных.
Алексис

1
@Alexis Естественно, что капельницы трудно найти ... "Нет бесплатного обеда", и все, однако, когда вы это сделаете, вы будете знать об этом практически без каких-либо сомнений.
Repmat

1
@Repmat ... предположения для правильных оценок IV требуют большего, чем тот, который изображен на DAG ... они действительно довольно хрупкие.
Алексис

Ответы:


7

Обусловливание (то есть корректировка) вероятностей какого-либо результата с учетом некоторого предиктора для третьих переменных широко практикуется, но, как вы правильно заметили, может фактически вносить систематическую ошибку в результирующую оценку как представление причинных эффектов . Это может даже произойти с «классическими» определениями потенциального причинного нарушителя, потому что как у самого собеседника, так и у предиктора интереса каждый из них может иметь дальнейшие причинно-следственные факторы вверх по течению. Например, в приведенной ниже DAG является классическим спутником причинного влияния E на D , поскольку (1) он вызывает и, следовательно, связан с E , а (2) связан с D, поскольку он связан сLEDED , который связан с D . Тем не менее, либо обусловливание, либо расслоение P ( D | E ) на L («коллайдер») приведет к смещенным причинным оценкам влияния E на D, поскольку L смешивается с D из-за неизмеренной переменной U 2 , а L смешивается с E по неизмеренной переменной U 1 .U2DP(D|E)LEDLDU2LEU1

DAG

Понимание того, какие переменные обусловливают или стратифицируют анализ для обеспечения объективной оценки причинно-следственных связей, требует тщательного рассмотрения возможных групп обеспечения доступности баз данных с использованием критериев идентификации причинно-следственных связей - без общих причин, которые не блокируются закулисными путями - описанными Перлом, Робинсом и другими. , Там нет ярлыков. Изучите общие смешанные шаблоны. Изучите общие шаблоны смещения выбора. Практика.

Ссылки

Гренландия С., Перл Дж. И Робинс Дж. М. (1999). Причинно-следственные диаграммы для эпидемиологических исследований . Эпидемиология , 10 (1): 37–48.

Эрнан, М. А. и Робинс, JM (2018). Причинный вывод . Чепмен и Холл / CRC, Бока-Ратон, Флорида

Maldonado, G. and Greenland, S. (2002). Оценка причинно-следственных эффектов . Международный журнал эпидемиологии , 31 (2): 422–438.

Pearl, J. (2000). Причинность: модели, рассуждения и умозаключения . Издательство Кембриджского университета.


12

Я полагаю, быстрый ответ из одного предложения на ваш вопрос,

Когда целесообразно контролировать переменную Y, а когда нет?

является «задним критерием».

Структурно-причинная модель Иудеи Перл может точно сказать, какие переменные являются достаточными (и когда это необходимо) для обусловленности, чтобы вывести причинное влияние одной переменной на другую. А именно, на этот вопрос отвечает критерий «черного хода», который описан на странице 19 этого обзорного документа Pearl.

Главное предостережение заключается в том, что вам необходимо знать причинно-следственную связь между переменными (в форме стрелок на графике). Обойти это невозможно. Это где сложность и возможная субъективность могут вступить в игру. Структурная причинно-следственная модель Перла позволяет вам только знать, как отвечать на правильные вопросы с учетом причинно-следственной модели (т. Е. Ориентированного графика), какой набор причинно-следственных моделей возможен при распределении данных или как искать причинно-следственную структуру, выполняя правильный эксперимент. Он не говорит вам, как найти правильную причинную структуру, учитывая только распределение данных. Фактически, он утверждает, что это невозможно без использования внешних знаний / интуиции о значении переменных.

Критерии «черного хода» можно сформулировать следующим образом:

XY,S

SX

SXY

YX.

S,XY

S,

SS

Это или критерий, в отличие от общего критерия задней двери , которая является и критерий.

Чтобы прояснить критерий «черного хода», он говорит вам о том, что для данной причинно-следственной модели при обусловливании достаточной переменной вы можете узнать причинно-следственную связь из распределения вероятности данных. (Как мы знаем, одного совместного распределения недостаточно для выявления причинно-следственной связи, поскольку множественные причинные структуры могут быть ответственны за одно и то же распределение. Именно поэтому требуется и причинная модель.) Распределение можно оценить с использованием обычных статистических / методы машинного обучения по данным наблюдений. Так что пока вы знаете что причинная структура позволяет обусловливать переменную (или набор переменных), ваша оценка причинного влияния одной переменной на другую так же хороша, как и ваша оценка распределения данных, которые вы получаете статистическими методами.

Вот что мы находим, когда применяем критерий «черного хода» к вашим двум диаграммам:

ZX.YYX,Y

YXZXYYYZ.YY.X.YYYXY

YYXZ.

Достаточно ли контролировать $ Y $, чтобы найти причинное влияние $ X $ на $ Z $?

YX.ZX.

ZYXZWBAX. YY B,B,YZYX

ZWBYX. Y ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

Как я упоминал ранее, использование критерия «черного хода» требует, чтобы вы знали причинную модель (то есть «правильную» диаграмму стрелок между переменными). Но Модель Структурной Причинности, на мой взгляд, также дает лучший и наиболее формальный способ поиска такой модели или узнать, когда поиск бесполезен. У него также есть замечательный побочный эффект от устаревания таких терминов, как «путаница», «посредничество» и «ложный» (все, что меня смущает). Просто покажи мне картинку, и я скажу, какие круги нужно контролировать.


3
Ницца. Я спорил, стоит ли добавить Причинность Перла в раздел ссылок моего ответа .... и теперь сделал это. :)
Алексис

0

Следующее может или не может быть подходящим для вашего случая: если Xэто лечение, то вы можете обойти свою проблему, используя сопоставление баллов склонности, в котором вы все равно сохраните переменную, Yкогда будете делать сопоставление. Другими словами, вы балансируете ковариаты ( Yэто один из таких ковариат), которые предсказывают получение лечения X.
Обратите внимание, что Zв приведенной выше ссылке на переменную результата нет ссылки . Вы также можете проверить, насколько сбалансированы ваши наблюдения (путем создания таблицы баланса до и после сопоставления), что может дать вам представление о том, насколько Xопределяется Y.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.