Не могли бы вы объяснить парадокс Симпсона с помощью уравнений, а не таблиц сопряженности?


14

Я, вероятно, не имею четкого понимания парадокса Симпсона . Неофициально я знаю, что среднее значение ответа Y1, сгруппированное по всем возможным уровням фактора A, может быть выше, чем среднее значение ответа Y2 по всем уровням A, даже если среднее значение Y1 для каждого уровня A (каждой группы) равно всегда меньше соответствующего среднего значения Y2. Я читал примеры, но я все равно удивляюсь каждый раз, когда вижу это, возможно, потому что я не учусь на конкретных примерах: у меня возникают проблемы с их обобщением. Я лучше всего учусь и предпочитаю видеть объяснения в формулах. Можете ли вы объяснить парадокс, опираясь на уравнения, а не на таблицы подсчета?

Кроме того, я думаю, что причина моего удивления заключается в том, что я мог неосознанно делать некоторые предположения о средних показателях, связанных с парадоксом, что может быть неверным в целом. Может быть, я забуду взвесить количество образцов в каждой группе? Но тогда я хотел бы увидеть уравнение, которое показывает мне, что оценка общего среднего значения более точна, если я взвешиваю среднее значение для каждой группы по количеству выборок в каждой группе, потому что (если это правда), это не очевидно для меня в целом. Наивно, я думаю, что оценка Е[Y1] имеет более низкую стандартную ошибку, когда у меня больше выборок, независимо от веса.


1
У меня есть связанный пост здесь с симуляциями. Симуляция может помочь вам понять парадокс Симпсона
Haitao Du

вот машина, производящая парадоксы Симпсона по требованию!
kjetil b halvorsen

Ответы:


11

Вот общий подход к пониманию парадокса Симпсона алгебраически для данных подсчета.

Предположим, у нас есть данные о выживании для воздействия, и мы создаем таблицу на случай непредвиденных обстоятельств 2x2. Для простоты у нас будет одинаковое количество в каждой клетке. Мы могли бы расслабиться, но это сделало бы алгебру довольно грязной.

умерпережившийСмертностьВыставленныйИксИкс0,5нераскрытыйИксИкс0,5

В этом случае уровень смертности одинаков в обеих группах, подвергшихся воздействию и не подвергавшихся воздействию.

Теперь, если мы разделим данные, скажем, на одну группу для женщин и другую группу для мужчин, мы получим 2 таблицы со следующим количеством:

Мужчины:

умерпережившийСмертностьВыставленныйИксaИксбaa+бнераскрытыйИкссИксdсс+d

и для женщин:

DiedSurvivedDeath RateВыставленныйИкс(a-1)Икс(б-1)a-1a+б-2нераскрытыйИкс(с-1)Икс(d-1)с-1с+d-2

где a,б,с,d[0,1] - пропорции каждой ячейки в таблице агрегированных данных, которые являются мужскими.

Парадокс Симпсона будет иметь место, когда уровень смертности для незащищенных мужчин больше, чем уровень смертности для неэкспонированных мужчин И уровень смертности для незащищенных женщин выше, чем коэффициент смертности для неэкспонированных женщин. В качестве альтернативы, это также может произойти, когда уровень смертности для подвергшихся воздействию мужчин меньше, чем уровень смертности для неэкспонированных мужчин, И уровень смертности для незащищенных женщин меньше, чем коэффициент смертности для неэкспонированных женщин. То есть когда

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

В качестве конкретного примера, пусть X=100 и a=0.5,b=0.8,c=0.9 . Тогда у нас будет парадокс Симпсона, когда:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

(0.96,1]

2-й набор неравенств дает:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

which has no solution for d[0,1]

So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with yв каждой группе индивидуально, но в целом положительная связь при агрегировании данных. Мы можем легко продемонстрировать это в R следующим образом:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

введите описание изображения здесь

Красные точки и линия регрессии - это группа A, синие точки и линия регрессии - это группа B, а черная линия - это общая линия регрессии.


Привет, спасибо за ответ, но это еще один конкретный пример парадокса Симпсона. Я специально попросил что-то в форме теоремы или системы уравнений, более абстрактного и общего подхода. В любом случае, поскольку других ответов нет, я изучу ваш пример и, если мне кажется, что это поможет мне обобщить концепцию, я приму ответ.
DeltaIV

3
@DeltaIV Я написал новый ответ, используя чисто алгебраические аргументы.
Роберт Лонг
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.