Ниже приводится вопрос о множестве визуализаций, предлагаемых в качестве «доказательства по картинке» о существовании парадокса Симпсона, и, возможно, вопрос о терминологии.
Парадокс Симпсона - довольно простое явление, которое можно описать и привести числовые примеры (причина, по которой это может произойти, глубока и интересна). Парадокс заключается в том, что существуют таблицы сопряженности 2x2x2 (Agresti, Категориальный анализ данных), где маргинальная ассоциация имеет направление, отличное от каждой условной ассоциации.
То есть сравнение соотношений в двух подгруппах населения может идти в одном направлении, но сравнение в совокупной совокупности идет в другом направлении. В символах:
Существуют такие, что a + b
но и
Это точно представлено в следующей визуализации (из Википедии ):
Дробь - это просто наклон соответствующих векторов, и в примере легко увидеть, что более короткие векторы B имеют больший наклон, чем соответствующие L векторов, но объединенный вектор B имеет меньший наклон, чем объединенный вектор L.
Существует очень распространенная визуализация во многих формах, особенно в начале этой ссылки на Википедию Симпсона:
Это отличный пример того, как скрытая переменная (которая разделяет две подгруппы) может показывать другой шаблон.
Однако математически такое изображение никоим образом не соответствует отображению таблиц сопряженности, которые лежат в основе явления, известного как парадокс Симпсона . Во-первых, линии регрессии располагаются над реальными данными набора точек, а не подсчитывают данные из таблицы сопряженности.
Кроме того, можно создавать наборы данных с произвольным отношением уклонов в линиях регрессии, но в таблицах сопряженности есть ограничение на то, насколько разными могут быть уклоны. То есть линия регрессии популяции может быть ортогональной ко всем регрессиям данных подгрупп населения. Но в «Парадоксе Симпсона» соотношения субпопуляций, хотя и не являются наклоном регрессии, не могут отклоняться слишком далеко от объединенной популяции, даже если в другом направлении (опять же, смотрите изображение сравнения соотношений из Википедии).
Для меня этого достаточно, чтобы быть озадаченным каждый раз, когда я рассматриваю последнее изображение как визуализацию парадокса Симпсона. Но так как я вижу (что я называю неправильными) примеры повсюду, мне интересно знать:
- Я пропускаю тонкое преобразование из исходных примеров таблиц сопряженности Симпсона / Юля в реальные значения, которые оправдывают визуализацию линии регрессии?
- Конечно, Симпсон является частным случаем ошибочной ошибки. Стал ли термин «парадокс Симпсона» теперь приравниваться к ошибочной ошибке, так что независимо от математики любое изменение направления через скрытую переменную можно назвать парадоксом Симпсона?
Приложение: Вот пример обобщения таблицы размером 2xmxn (или 2 на m непрерывной):
Если объединить по типу выстрела, похоже, что игрок делает больше выстрелов, когда защитники находятся ближе. Сгруппированные по типу выстрела (действительно расстояние от корзины), более интуитивно ожидаемая ситуация возникает, чем больше выстрелов, тем дальше находятся защитники.
Это изображение я считаю обобщением Симпсона для более непрерывной ситуации (расстояние защитников). Но я до сих пор не вижу, как пример линии регрессии является примером Симпсона.