Сравнение показателей заболеваемости


9

Я хочу сравнить показатели заболеваемости между двумя группами (одна без болезни и одна с).

Я планировал рассчитать коэффициент заболеваемости (IRR), то есть группу заболеваемости B / группу заболеваемости A, а затем проверить, равен ли этот показатель 1, и, наконец, рассчитать 95% интервалы CI для IRR.

Я нашел метод для расчета 95% ДИ в книге ( Основы биостатистики Рознера ):

ехр[журнал(IRR)±1,96(1/a1)+(1/a2)]

где 1 и 2 являются число событий. Но это приближение справедливо только для достаточно больших размеров выборки, и я думаю, что количество событий, которые у меня есть, слишком мало (возможно, для общего сравнения это нормально.)a1a2

Поэтому я думаю, что я должен использовать другой метод.

Я использую R и пакет PrecisionCI и обнаружил, что я мог бы использовать poisson.test(). Но эта функция имеет 3 метода для определения двухсторонних значений p: центрального, минимального и блейкерного.

Итак, мои вопросы :

  1. Верно ли, что для сравнения двух коэффициентов заболеваемости я использую тест для сравнения коэффициентов Пуассона?

  2. Какой метод лучше использовать при использовании функции poisson.test в R из пакета точного?

Виньетка для exactci говорит:

α/2α интервал)% доверительный. Это называется TST (метод вдвое меньшего хвоста) Хирджи (2006).

minlike: сумма вероятностей результатов с вероятностями, меньшими или равными наблюдаемой вероятности. Это называется метод PB (основанный на вероятности) Хирджи (2006).

Blaker: объединяет вероятность меньшего наблюдаемого хвоста с наименьшей вероятностью противоположного хвоста, который не превышает эту наблюдаемую вероятность хвоста. Название «Blaker» мотивировано Blaker (2000), который всесторонне изучает связанный метод для доверительных интервалов. Это называется метод CT (комбинированный хвост) Хирджи (2006).

Мои данные:

Group A: 
Age group 1: 3 cases    in 10459 person yrs.   Incidence rate: 0.29 
Age group 2: 7 cases    in 2279 person yrs.    Incidence rate: 3.07
Age group 3: 4 cases    in 1990 person yrs.    Incidence rate: 2.01
Age group 4: 9 cases    in 1618 person yrs.    Incidence rate: 5.56
Age group 5: 11 cases   in 1357 person yrs.    Incidence rate: 8.11
Age group 6: 11 cases   in 1090 person yrs.    Incidence rate: 10.09
Age group 7: 9 cases    in 819 person yrs.     Incidence rate: 10.99
  Total:    54 cases in 19612 person yrs.      Incidence rate: 2.75

Group B: 
Age group 1: 3 cases    in 3088 person yrs.   Incidence rate: 0.97 
Age group 2: 1 cases    in 707 person yrs.    Incidence rate: 1.41
Age group 3: 2 cases    in 630 person yrs.    Incidence rate: 3.17
Age group 4: 6 cases    in 441 person yrs.    Incidence rate: 13.59
Age group 5: 10 cases   in 365 person yrs.    Incidence rate: 27.4
Age group 6: 6 cases   in 249 person yrs.    Incidence rate: 24.06
Age group 7: 0 cases    in 116 person yrs.     Incidence rate: 0
  Total:    28 cases in 5597 person yrs.      Incidence rate: 5.0

Ответы:


2

Пара мыслей:

Во-первых, предлагаемое вами сравнение - отношение количества инцидентов между A и B - в настоящее время не обусловлено никакими ковариатами. Это означает, что число ваших событий составляет 54 для группы A и 28 для группы B. Этого более чем достаточно, чтобы использовать обычные методы доверительного интервала на основе большой выборки.

Во-вторых, даже если вы намереваетесь скорректировать влияние возраста, а не вычислять соотношение для каждой группы, вам лучше будет использовать регрессионный подход. Как правило, если вы стратифицируете по многим уровням переменной, она становится довольно громоздкой по сравнению с уравнением регрессии, которое даст вам соотношение скоростей A и B с учетом возраста. Я полагаю, что стандартные подходы все еще будут работать для вашего размера выборки, хотя, если вы беспокоитесь об этом, вы можете использовать что-то вроде glmperm .


1

Уровень заболеваемости каждой группы в ваших данных является просто средним значением суммы независимых переменных Бернулли (0/1) - у каждого пациента есть своя собственная переменная, получающая значение 0 или 1, вы суммируете их и берете среднее значение, которое это показатель заболеваемости.

Если у вас большие выборки (а ваша выборка большая), среднее значение будет распределяться нормально, так что вы можете использовать простой z-тест, чтобы проверить, различаются ли две скорости или нет.

В R посмотрите на prop.test: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/prop.test.html

Если вы хотите в полной мере использовать данные, попробуйте посмотреть, отличается ли распределение показателей заболеваемости между группами А и В. Для этого может помочь проверка независимости, например, хи-квадрат G -test: http://udel.edu/~mcdonald/statchiind.html


0

Единственный способ убедиться, что выборка достаточно велика (или, как сказал бы Чарли Гейер), что вы на самом деле находитесь в асимтопии ), состоит в том, чтобы выполнить большую симуляцию Монте-Карло или, как EpiGard предложил использовать что-то вроде glmperm.

Что касается того, какой метод лучше всего подходит для точных данных, то здесь нет лучшего - или, как его называл Фишер.

Лучше всего для чего?

Майкл Фэй дает некоторые разъяснения здесь

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.