Охватывает ли парадокс Симпсона все случаи обращения из скрытой переменной?

Ниже приводится вопрос о множестве визуализаций, предлагаемых в качестве «доказательства по картинке» о существовании парадокса Симпсона, и, возможно, вопрос о терминологии.

Парадокс Симпсона - довольно простое явление, которое можно описать и привести числовые примеры (причина, по которой это может произойти, глубока и интересна). Парадокс заключается в том, что существуют таблицы сопряженности 2x2x2 (Agresti, Категориальный анализ данных), где маргинальная ассоциация имеет направление, отличное от каждой условной ассоциации.

То есть сравнение соотношений в двух подгруппах населения может идти в одном направлении, но сравнение в совокупной совокупности идет в другом направлении. В символах:

Существуют такие, что $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

но и

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Это точно представлено в следующей визуализации (из Википедии ):

Дробь - это просто наклон соответствующих векторов, и в примере легко увидеть, что более короткие векторы B имеют больший наклон, чем соответствующие L векторов, но объединенный вектор B имеет меньший наклон, чем объединенный вектор L.

Существует очень распространенная визуализация во многих формах, особенно в начале этой ссылки на Википедию Симпсона:

Это отличный пример того, как скрытая переменная (которая разделяет две подгруппы) может показывать другой шаблон.

Однако математически такое изображение никоим образом не соответствует отображению таблиц сопряженности, которые лежат в основе явления, известного как парадокс Симпсона . Во-первых, линии регрессии располагаются над реальными данными набора точек, а не подсчитывают данные из таблицы сопряженности.

Кроме того, можно создавать наборы данных с произвольным отношением уклонов в линиях регрессии, но в таблицах сопряженности есть ограничение на то, насколько разными могут быть уклоны. То есть линия регрессии популяции может быть ортогональной ко всем регрессиям данных подгрупп населения. Но в «Парадоксе Симпсона» соотношения субпопуляций, хотя и не являются наклоном регрессии, не могут отклоняться слишком далеко от объединенной популяции, даже если в другом направлении (опять же, смотрите изображение сравнения соотношений из Википедии).

Для меня этого достаточно, чтобы быть озадаченным каждый раз, когда я рассматриваю последнее изображение как визуализацию парадокса Симпсона. Но так как я вижу (что я называю неправильными) примеры повсюду, мне интересно знать:

Я пропускаю тонкое преобразование из исходных примеров таблиц сопряженности Симпсона / Юля в реальные значения, которые оправдывают визуализацию линии регрессии?
Конечно, Симпсон является частным случаем ошибочной ошибки. Стал ли термин «парадокс Симпсона» теперь приравниваться к ошибочной ошибке, так что независимо от математики любое изменение направления через скрытую переменную можно назвать парадоксом Симпсона?

Приложение: Вот пример обобщения таблицы размером 2xmxn (или 2 на m непрерывной):

Если объединить по типу выстрела, похоже, что игрок делает больше выстрелов, когда защитники находятся ближе. Сгруппированные по типу выстрела (действительно расстояние от корзины), более интуитивно ожидаемая ситуация возникает, чем больше выстрелов, тем дальше находятся защитники.

Это изображение я считаю обобщением Симпсона для более непрерывной ситуации (расстояние защитников). Но я до сих пор не вижу, как пример линии регрессии является примером Симпсона.

— Митч
источник

Парадокс Симпсона не относится только к категориальным целевым данным. Непрерывные целевые данные с категориальным фактором, влияющим на них, как на вашем конечном графике, могут быть предметом парадокса. Ключевым является тот факт, что «категориальный фактор» не зависит от того, является ли переменная, представляющая интерес, категориальной, или же категоричны какие-либо или все другие факторы, влияющие на переменную, представляющую интерес.

— jbowman

@jbowman Хорошо, я могу видеть, что SP может быть обобщен за пределы категориальных данных до непрерывных (я не видел этого обобщения; SP, кажется, всегда представлен с таблицами сопряженности), но я не вижу, как соответствует второй график. Я имею в виду, что вижу очевидную, но расплывчатую метафору «скрытая переменная может изменить направление», но я просто не вижу, как обобщение работает математически / точно.

— Митч

У вас есть скрытый категориальный фактор, который заставляет «настоящие» данные следовать за двумя цветными линиями, но без знания этих данных, как представляется, пунктирная линия. Рассматривайте дорожно-транспортные происшествия по возрасту как целевые и переменные по оси x, а не по категориям. Кажется, они с возрастом снижаются, верно? Теперь добавьте «скрытый фактор» «вождение в нетрезвом виде». Синяя линия будет означать «вождение в нетрезвом виде», а красная - «вождение в нетрезвом виде». Учитывая этот скрытый фактор, связанный с молодежью, несчастные случаи возрастают с возрастом! (Не самый реалистичный пример, я должен признать, но это идея, которая имеет значение ...)

— jbowman

@jbowman Это скорее похоже на объяснение ошибочной ошибки, чем на SP. Может быть, вы говорите, что SP и смешивать одно и то же. Но это звучит в направлении ответа; может быть, вы могли бы немного формализовать это и сделать связь с SP более явной (математически объясните, как линии регрессии похожи на сравнения соотношений в случае таблицы сопряженности).

— Митч

x

$x$

p

$p$

Ответы:

Парадокс заключается в том, что существуют таблицы сопряженности 2x2x2 (Agresti, Категориальный анализ данных), где маргинальная ассоциация имеет направление, отличное от каждой условной ассоциации [...] Я пропускаю тонкое преобразование из оригинальных примеров таблиц сопряженности Симпсона / Юла в реальные значения, которые оправдывают визуализацию линии регрессии?

Основная проблема в том, что вы приравниваете один простой способ показать парадокс как сам парадокс. Простой пример таблицы сопряженности не является парадоксом как таковым. Парадокс Симпсона заключается в противоречивой причинной интуиции при сравнении маргинальных и условных ассоциаций, чаще всего из-за смены знака (или экстремальных ослаблений, таких как независимость, как в оригинальном примере, приведенном самим Симпсоном , в котором нет смены знака). Парадокс возникает, когда вы интерпретируете обе оценки причинно-следственной связи, которые могут привести к различным выводам - помогает ли лечение пациенту или причиняет ему боль? И какую оценку вы должны использовать?

$\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Конечно, Симпсон является частным случаем ошибочной ошибки.

Это неверно! Парадокс Симпсона не является частным случаем ошибочной ошибки - если бы это было просто, тогда не было бы никакого парадокса вообще. В конце концов, если вы уверены, что некоторые отношения нарушены, вы не будете удивлены, увидев смена знака или затухание в таблицах сопряженности или коэффициентах регрессии - возможно, вы даже ожидаете этого.

Таким образом, хотя парадокс Симпсона относится к обращению (или крайнему ослаблению) «эффектов» при сравнении маргинальных и условных ассоциаций, это может быть не из-за путаницы, и априори вы не можете знать, является ли маргинальная или условная таблица «правильной». "один, чтобы проконсультироваться, чтобы ответить на ваш причинный запрос. Для этого вам нужно больше узнать о причинно-следственной структуре проблемы.

Рассмотрим эти примеры, приведенные в Перл :

$X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

Объяснение Перл того, почему это было сочтено «парадоксом» и почему оно до сих пор удивляет людей, очень правдоподобно. Возьмем, к примеру, простой случай, изображенный в (а): причинно-следственные связи не могут просто так измениться. Следовательно, если мы ошибочно предполагаем, что обе оценки являются причинно-следственными (предельными и условными), мы были бы удивлены, увидев, что такое происходит - и люди, похоже, настроены видеть причинность в большинстве ассоциаций.

Итак, вернемся к вашему основному (заглавному) вопросу:

Охватывает ли парадокс Симпсона все случаи обращения из скрытой переменной?

В некотором смысле, это текущее определение парадокса Симпсона. Но очевидно, что переменная обусловленности не скрыта, ее нужно соблюдать, иначе вы не увидите, как происходит парадокс. Большая часть загадочной части парадокса проистекает из причинно-следственных соображений, и эта «скрытая» переменная не обязательно является определяющим фактором.

Таблицы констант и регрессия

$y$ $x$ $z$

$y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

$z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

$z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

$\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

— Карлос Синелли
источник

По вашему мнению, парадокс Симпсона относится не только к возможности различия маргинальных и условных ассоциаций, но также к путанице относительно того, какой из них «прав» использовать при интерпретации данных? И Перл показывает, что причинная структура - это то, что мы должны использовать, чтобы решить это?

— Пол

«Парадокс Симпсона о противоречивых интуициях при сравнении маргинальных и условных ассоциаций». Я не согласен, парадокс Симпсона, в частности, относится к знаку, сравнивая грубые и стратифицированные результаты.

— AdamO

@AdamO, в то время как большинство людей используют крайний случай обращения знака в качестве «строгого» определения парадокса Симпсона, оригинальный пример Симпсона фактически не имел обращения знака.

— Карлос

@ Пол, это совершенно верно.

— Карлос

@AdamO Мне кажется правдоподобным объяснение Перл того, почему это считалось «парадоксом» и почему оно до сих пор удивляет людей. Например, в простом случае (а) причинно-следственные связи не могут просто так измениться. Следовательно, если мы думаем о причинно-следственной связи в обоих случаях, мы были бы удивлены, увидев, что такое происходит - и люди, похоже, настроены видеть причинность в большинстве ассоциаций.

— Карлос

Я пропускаю тонкое преобразование из исходных примеров таблиц сопряженности Симпсона / Юля в реальные значения, которые оправдывают визуализацию линии регрессии?

Да. Подобное представление категориального анализа возможно путем визуализации лог-шансов ответа на оси Y. Парадокс Симпсона выглядит примерно так же, как «грубая» линия, идущая против трендов, специфичных для страты, взвешенных на расстоянии в соответствии с логарифмическими коэффициентами реферата страты.

Вот пример с данными о приеме в Беркли

Здесь пол - это мужской / женский код, на оси X - грубые логарифмические коэффициенты при поступлении для мужчин по сравнению с женщинами, жирная пунктирная черная линия показывает гендерные предпочтения: положительный наклон указывает на смещение к поступлению мужчин. Цвета обозначают поступление в определенные отделы. Во всех случаях, кроме двух, наклон линии гендерного предпочтения для департамента отрицательный. Если эти результаты усредняются вместе в логистической модели, не учитывающей взаимодействие, общий эффект - это изменение в пользу приема женщин. Они обращались в более сложные отделы чаще, чем мужчины.

Конечно, Симпсон является частным случаем ошибочной ошибки. Стал ли термин «парадокс Симпсона» теперь приравниваться к ошибочной ошибке, так что независимо от математики любое изменение направления через скрытую переменную можно назвать парадоксом Симпсона?

Вкратце нет. Парадокс Симпсона - это просто «что», а смущение - «почему». Доминирующая дискуссия была сосредоточена на том, где они согласны. Смешивание может оказать минимальное или незначительное влияние на оценки, и, альтернативно, парадокс Симпсона, хотя и драматичный, может быть вызван неучастниками. Как примечание, термины «скрытая» или «скрытая» переменная являются неточными. С точки зрения эпидемиолога, тщательный контроль и дизайн исследования должны позволять измерять или контролировать возможные факторы, вносящие вклад в смешанное смещение. Они не должны быть «скрытыми», чтобы быть проблемой.

Бывают моменты, когда точечные оценки могут сильно различаться, вплоть до разворота, что не является результатом смешивания. Коллайдеры и медиаторы также меняют эффекты, возможно, обращая их вспять. Причинно-следственные рассуждения предупреждают, что для изучения эффектов основной эффект следует изучать изолированно, а не корректировать их, поскольку стратифицированная оценка неверна. (Это похоже на неверное заключение о том, что посещение врача вызывает у вас заболевание или что оружие убивает людей, следовательно, люди не убивают людей).

— Adamo
источник

Таким образом, вы бы сказали, что оригинальный пример Симпсона - не случай "парадокса Симпсона"?

— Карлос

@CarlosCinelli, на какой пример вы бы ссылались? У меня нет доступа к статье Симпсона 1951 года, но, учитывая, что она опубликована в JRSS и не имеет ссылки на прикладной пример в аннотации, она кажется чисто теоретической работой.

— AdamO

Это числовой пример в параграфах 9 и 10, где он приводит одинаковые таблицы непредвиденных обстоятельств с двумя разными историями, которые приведут к двум различным причинным интерпретациям. В этом примере нет изменения знака, только предельная независимость.

— Карлос

Чтобы понять, почему изменение знака здесь несущественно, просто представьте ситуацию, когда лечение демонстрирует чрезвычайно сильную связь как для мужчин, так и для женщин, но показывает лишь незначительную связь среди населения в целом. Это все равно было бы парадоксальным для большинства людей, если бы они интерпретировались как причинно-следственные связи.

— Карлос

@CarlosCinelli Я бы сказал, что это был пример смущающего, но не парадокса Симпсона как такового, но я не буду излагать суть, я думаю, что вы дали хороший аргумент, и, возможно, я придерживался некоторых неверных предположений о том, что было и не было неуловимое явление парадокса Симпсона.

— AdamO