Вот общий подход к пониманию парадокса Симпсона алгебраически для данных подсчета.
Предположим, у нас есть данные о выживании для воздействия, и мы создаем таблицу на случай непредвиденных обстоятельств 2x2. Для простоты у нас будет одинаковое количество в каждой клетке. Мы могли бы расслабиться, но это сделало бы алгебру довольно грязной.
ВыставленныйнераскрытыйумерИксИкспережившийИксИксСмертность0,50,5
В этом случае уровень смертности одинаков в обеих группах, подвергшихся воздействию и не подвергавшихся воздействию.
Теперь, если мы разделим данные, скажем, на одну группу для женщин и другую группу для мужчин, мы получим 2 таблицы со следующим количеством:
Мужчины:
ВыставленныйнераскрытыйумерИксaИксспережившийИксбИксdСмертностьaа + бсс + д
и для женщин:
ВыставленныйнераскрытыйумерИкс( а - 1 )Икс( с - 1 )пережившийИкс( б - 1 )Икс( д- 1 )Смертностьа - 1+b−2c−1c+d- 2
где а , б , в , д∈ [ 0 , 1 ] - пропорции каждой ячейки в таблице агрегированных данных, которые являются мужскими.
Парадокс Симпсона будет иметь место, когда уровень смертности для незащищенных мужчин больше, чем уровень смертности для неэкспонированных мужчин И уровень смертности для незащищенных женщин выше, чем коэффициент смертности для неэкспонированных женщин. В качестве альтернативы, это также может произойти, когда уровень смертности для подвергшихся воздействию мужчин меньше, чем уровень смертности для неэкспонированных мужчин, И уровень смертности для незащищенных женщин меньше, чем коэффициент смертности для неэкспонированных женщин. То есть когда
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
В качестве конкретного примера, пусть X=100 и a=0.5,b=0.8,c=0.9 . Тогда у нас будет парадокс Симпсона, когда:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
(0.96,1]
2-й набор неравенств дает:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
which has no solution for d∈[0,1]
So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
and for Females:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.