Как сравнить медианную выживаемость между группами?

12

Я смотрю на среднюю выживаемость, используя Каплан-Мейер в разных штатах для типа рака. Между штатами довольно большие различия. Как я могу сравнить медианное выживание между всеми штатами и определить, какие из них значительно отличаются от среднего медианного выживания по всей стране?

multiple-comparisons survival

— Миша
источник

Не могли бы вы дать некоторую информацию о размерах выборки, временных рамках, проценте выживаемости и т. Д., Чтобы мы лучше поняли план вашего исследования?

— ЧЛ

есть ли в данных цензурированные значения - кроме как для самых больших значений?

— Ронаф

В данных действительно есть цензурированные значения, и общая численность населения составляет около 1500, медиана общей выживаемости составляет 18 месяцев (диапазон 300-600 дней) ... период времени - период 2000-2007.

— Миша

6

Кривая выживания Каплана-Мейера должна иметь в виду, что она в основном носит описательный характер, а не выводится . Это просто функция данных, за которой скрывается невероятно гибкая модель. Это сила, потому что это означает, что нет практически никаких предположений, которые могут быть нарушены, но есть слабость, потому что это трудно обобщить, и что это соответствует как «шуму», так и «сигналу». Если вы хотите сделать вывод, то в основном вы должны представить нечто неизвестное, что вы хотите знать.

Теперь один из способов сравнить среднее время выживания - сделать следующие допущения:

У меня есть оценка среднего времени выживания для каждого из состояний , заданного кривой Каплана-Мейера. $t_{i}$ $i$
Я ожидаю, что истинное медианное время выживания, будет равно этой оценке. $T_{i}$ $E(T_{i}|t_{i})=t_{i}$
Я на 100% уверен, что истинное среднее время выживания положительно. $Pr(T_{i}>0)=1$

Теперь «самым консервативным» способом использования этих допущений является принцип максимальной энтропии, поэтому вы получите:

p (T_{i} | t_{i}) = K e x p (- λ T_{i})

$p(T_{i}|t_{i})= K exp(-\lambda T_{i})$

Где и выбраны так, что PDF нормализуется, и ожидаемое значение равно . Теперь у нас есть: $K$ $\lambda$ $t_{i}$

1 = \int_{0}^{\infty} p (T_{i} | t_{i}) d T_{i} = K \int_{0}^{\infty} e x p (- λ T_{i}) d T_{i}

$1=\int_{0}^{\infty}p(T_{i}|t_{i})dT_{i} =K \int_{0}^{\infty}exp(-\lambda T_{i})dT_{i}$

= K {[- \frac{e x p (- λ T_{i})}{λ}]}_{T_{i} = 0}^{T_{i} = \infty} = \frac{K}{λ} ⟹ K = λ

$=K \left[-\frac{exp(-\lambda T_{i})}{\lambda}\right]_{T_{i}=0}^{T_{i}=\infty}=\frac{K}{\lambda}\implies K=\lambda$ и теперь у нас есть

E (T_{i}) = \frac{1}{λ} ⟹ λ = t_{i}^{- 1}

$E(T_{i})=\frac{1}{\lambda}\implies \lambda=t_{i}^{-1}$

И поэтому у вас есть набор распределений вероятностей для каждого состояния.

p (T_{i} | t_{i}) = \frac{1}{t_{i}} e x p (- \frac{T_{i}}{t_{i}}) (i = 1, \dots, N)

$p(T_{i}|t_{i})= \frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)\;\;\;\;\;(i=1,\dots,N)$

Которые дают совместное распределение вероятностей:

p (T_{1}, T_{2}, \dots, T_{N} | t_{1}, t_{2}, \dots, t_{N}) = \prod_{i = 1}^{N} \frac{1}{t_{i}} e x p (- \frac{T_{i}}{t_{i}})

$p(T_{1},T_{2},\dots,T_{N}|t_{1},t_{2},\dots,t_{N})= \prod_{i=1}^{N}\frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)$

Похоже, вы хотите проверить гипотезу , где - среднее медианное время выживания. Суровая альтернативная гипотеза для проверки - гипотеза «каждое состояние - уникальная и красивая снежинка» потому что это наиболее вероятная альтернатива, и, таким образом, представляет информацию, потерянную при переходе к более простой гипотезе («минимаксный» тест). Мера доказательств против более простой гипотезы дается соотношением шансов: $H_{0}:T_{1}=T_{2}=\dots=T_{N}=\overline{t}$ $\overline{t}=\frac{1}{N}\sum_{i=1}^{N}t_{i}$ $H_{A}:T_{1}=t_{1},\dots,T_{N}=t_{N}$

O (H_{A} | H_{0}) = \frac{p (T_{1} = t_{1}, T_{2} = t_{2}, \dots, T_{N} = t_{N} | t_{1}, t_{2}, \dots, t_{N})}{p (T_{1} = \bar{t}, T_{2} = \bar{t}, \dots, T_{N} = \bar{t} | t_{1}, t_{2}, \dots, t_{N})}

$O(H_{A}|H_{0})=\frac{p(T_{1}=t_{1},T_{2}=t_{2},\dots,T_{N}=t_{N}|t_{1},t_{2},\dots,t_{N})}{ p(T_{1}=\overline{t},T_{2}=\overline{t},\dots,T_{N}=\overline{t}|t_{1},t_{2},\dots,t_{N})}$

= \frac{[\prod_{i = 1}^{N} \frac{1}{t_{i}}] e x p (- \sum_{i = 1}^{N} \frac{t_{i}}{t_{i}})}{[\prod_{i = 1}^{N} \frac{1}{t_{i}}] e x p (- \sum_{i = 1}^{N} \frac{\bar{t}}{t_{i}})} = e x p (N [\frac{\bar{t}}{t_{h a r m}} - 1])

$=\frac{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{t_{i}}{t_{i}}\right) }{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{\overline{t}}{t_{i}}\right) } =exp\left(N\left[\frac{\overline{t}}{t_{harm}}-1\right]\right)$

где

t_{h a r m} = {[\frac{1}{N} \sum_{i = 1}^{N} t_{i}^{- 1}]}^{- 1} \leq \bar{t}

$t_{harm}=\left[\frac{1}{N}\sum_{i=1}^{N}t_{i}^{-1}\right]^{-1}\leq \overline{t}$

это среднее гармоническое. Обратите внимание, что шансы всегда будут благоприятствовать идеальной подгонке, но не намного, если среднее время выживания достаточно близко. Кроме того, это дает вам прямой способ изложить доказательства этого конкретного теста гипотезы:

допущения 1-3 дают максимальные шансы против равного среднего времени выживания во всех штатах $O(H_{A}|H_{0}):1$

Объедините это с правилом принятия решений, функцией потерь, функцией полезности и т. Д., Которая говорит о том, как выгодно принять более простую гипотезу, и вы получите свой вывод!

Нет ограничений на количество гипотез, на которые вы можете проверить, и на которые вы можете рассчитывать. Просто измените чтобы указать другой набор возможных «истинных значений». Вы можете сделать «проверку значимости», выбрав гипотезу как: $H_{0}$

H_{S, i} : T_{i} = t_{i}, T_{j} = T = {\bar{t}}_{(i)} = \frac{1}{N - 1} \sum_{j \neq i} t_{j}

$H_{S,i}:T_{i}=t_{i},T_{j}=T=\overline{t}_{(i)}=\frac{1}{N-1}\sum_{j\neq i}t_{j}$

Так что эта гипотеза устно «состояние у отличается медиана выживаемости, но все остальные состояния одинаковы». А затем повторите расчет коэффициента шансов, который я сделал выше. Хотя вы должны быть осторожны с альтернативной гипотезой. Любой из перечисленных ниже является «разумным» в том смысле, что это могут быть вопросы, на которые вы заинтересованы ответить (и они, как правило, будут иметь разные ответы) $i$

мой определенный выше - насколько хуже по сравнению с идеальной посадкой? $H_{A}$ $H_{S,i}$
мой определенный выше - насколько лучше по сравнению со средним соответствием? $H_{0}$ $H_{S,i}$
другой - насколько состояние «более отличается» по сравнению с состоянием ? $H_{S,k}$ $k$ $i$

Теперь одна вещь, которая была здесь упущена, это корреляции между состояниями - эта структура предполагает, что знание средней выживаемости в одном штате ничего не говорит вам о средней выживаемости в другом состоянии. Хотя это может показаться «плохим», его нетрудно улучшить, и приведенные выше расчеты являются хорошими начальными результатами, которые легко рассчитать.

Добавление связей между состояниями изменит модели вероятности, и вы фактически увидите некоторое «объединение» медианного времени выживания. Одним из способов включения корреляций в анализ является разделение истинного времени выживания на две составляющие: «общая часть» или «тренд» и «индивидуальная часть»:

T_{i} = T + U_{i}

$T_{i}=T+U_{i}$

А затем ограничьте отдельную часть средним нулем по всем единицам и неизвестной дисперсией чтобы интегрировать ее, используя предварительное описание того, что вы знаете об индивидуальной изменчивости, перед наблюдением данных (или джефриса, если вы ничего не знаю, и наполовину коучи, если джефри вызывает проблемы). $U_{i}$ $\sigma$

— probabilityislogic
источник

(+1) Очень интересно. Ваше сообщение также заставило меня вставить комментарий в мой ответ.

— ГаБоргуля,

Возможно, я пропустил это, но где определяется ?

M_{1}

$M_1$

— кардинал

@ Cardinal, мои извинения - это опечатка. будут удалены

— probabilityislogic

никаких извинений не требуется. Просто не был уверен, пропустил ли я это во время чтения или просто упустил что-то очевидное.

— кардинал

4

Думаю, я просто добавлю к этой теме, что вас может заинтересовать квантильная регрессия с цензурой. Bottai & Zhang 2010 предложили «Регрессию Лапласа», которая может выполнить только эту задачу, вы можете найти PDF-файл по этому вопросу здесь . Для этого есть пакет для Stata, он еще не был переведен в R, хотя пакет Quantreg в R имеет функцию для цензурированной квантильной регрессии, crq , которая может быть опцией.

Я думаю, что этот подход очень интересен и может быть гораздо более интуитивным для пациентов с коэффициентами риска. Например, зная, что 50% препарата остаются на 2 месяца больше, чем те, которые не принимают препарат, а побочные эффекты вынуждают вас оставаться в больнице 1-2 месяца, что может значительно облегчить выбор лечения.

— Макс Гордон
источник

Я не знаю «Регрессию Лапласа», но что касается вашего второго абзаца, мне интересно, правильно ли я понимаю. Обычно в анализе выживаемости (в терминах ускоренного времени неудачи) мы говорим что-то вроде: «50-й процентиль для группы препаратов наступает на 2 месяца позже, чем 50-й процент для контрольной группы». Это то, что вы имеете в виду, или вывод LR дает другую интерпретацию?

— gung - Восстановить Монику

@ Gung: Я думаю, что вы правы в своей интерпретации - изменили текст, лучше? Я не использовал регрессионные модели сам, хотя недавно столкнулся с ними в курсе. Это интересная альтернатива обычным моделям Кокса, которыми я часто пользовался. Хотя мне, вероятно, нужно потратить больше времени на усвоение идеи, я чувствую, что мне, вероятно, легче объяснить своим пациентам, поскольку я часто использую кривые КМ при объяснении своим пациентам. HR требует, чтобы вы действительно понимали разницу между относительными и абсолютными рисками - концепция, которая может занять некоторое время, чтобы объяснить ...

— Макс Гордон,

econ.uiuc.edu/~roger/research/crq/note.pdf

— Миша,

Спасибо @Misha за ссылку. У автора есть ответ здесь: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract

— Макс Гордон

3

Сначала я бы визуализировал данные: вычислил доверительные интервалы и стандартные ошибки для медианных выживаемостей в каждом штате и показал CI на лесном участке, медианы и их SE, используя воронкообразный график.

«Среднее медианное выживание по всей стране» - это величина, которая оценивается на основе данных и, следовательно, имеет неопределенность, поэтому вы не можете принять ее в качестве точного эталонного значения во время тестирования значимости. Другая трудность с подходом среднего значения состоит в том, что когда вы сравниваете медиану состояния с ним, вы сравниваете медиану с величиной, которая уже включает эту величину в качестве компонента. Таким образом, легче сравнивать каждое состояние со всеми другими состояниями вместе взятыми. Это можно сделать, выполнив проверку лог-ранга (или ее альтернатив) для каждого состояния.
(Отредактируйте после прочтения ответа вероятностной логики: критерий лог-ранга сравнивает выживаемость в двух (или более) группах, но это не строго медиана, которую он сравнивает. Если вы уверены, что это медиана, которую вы хотите сравнить, Вы можете полагаться на его уравнения или использовать здесь тоже пересчет)

Вы пометили свой вопрос [множественные сравнения], поэтому я предполагаю, что вы также хотите скорректировать (увеличить) ваши значения p таким образом, чтобы, если вы видите хотя бы одно скорректированное значение p менее 5%, вы могли бы заключить, что «медиана выживаемости по штатам не равный »на уровне значимости 5%. Вы можете использовать общие и чрезмерно консервативные методы, такие как Bonferroni, но оптимальная схема коррекции будет учитывать корреляции значений p. Я предполагаю, что вы не хотите встраивать какие-либо априорные знания в схему коррекции, поэтому я расскажу о схеме, в которой корректировка умножает каждое значение p на одну и ту же константу C.

Поскольку я не знаю, как вывести формулу для получения оптимального множителя C, я бы использовал повторную выборку . В соответствии с нулевой гипотезой, что характеристики выживания одинаковы во всех состояниях, вы можете переставлять метки состояний случаев рака и пересчитывать медианы. После получения множества векторов значений p с передискретизацией я бы численно нашел множитель C, ниже которого менее 95% векторов не имеют значимых значений p и выше которого более 95%. В то время как диапазон выглядит широким, я бы многократно увеличил количество повторных выборок на порядок.

— GaBorgulya
источник

Хороший совет по визуализации данных. (+1)

— вероятностная

@probabilityislogic Спасибо! Я также приветствую критику, особенно если она конструктивная.

— ГаБоргуля,

единственная критика, которую я имею, - это использование p-значений, но это больше «фишка на моем плече», чем что-либо в вашем ответе - кажется, что если вы собираетесь использовать p-значения, то то, что вы рекомендуете, является хорошим. Я просто не думаю, что использование р-значений хорошо. см. здесь мой обмен с @eduardo в комментариях о p-значениях.

— вероятностная