ML оценка экспоненциального распределения (с цензурой данных)

В Survival Analysis вы предполагаете, что время выживания rv распределено экспоненциально. Учитывая теперь , что у меня есть «результаты» н.о.р. с.в. . Только некоторая часть этих результатов фактически «полностью реализована», то есть остальные наблюдения все еще «живы». $X_i$ $x_1,\dots,x_n$ $X_i$

Если бы я хотел выполнить оценку ML для параметра скорости распределения, как я могу использовать неосуществленные наблюдения согласованным / соответствующим образом? Я считаю, что они все еще содержат полезную информацию для оценки. $\lambda$

Может ли кто-нибудь направить меня к литературе по этой теме? Я уверен, что это существует. Однако у меня возникли проблемы с поиском хороших ключевых слов / поисковых терминов по теме.

— Хороший парень майк
источник

Итак, вы говорите, что из

случайных величин, измерения которых у вас есть, скажем,

наблюдений представляют «окончательные» значения продолжительности жизни (потому что связанные случайные величины были «мертвыми» во время измерения), а остальные

наблюдения - это длины выживания случайных величин, которые были «еще живы» во время измерения? (

)

n

$n$

n_{1} < n

$n_1 < n$

n_{2} < n

$n_2 <n$

n_{1} + n_{2} = n

$n_1+n_2 = n$

— Алекос Пападопулос

это усеченная модель, где «живые» случайные переменные усекаются в момент остановки наблюдения.

— Сиань

Проверьте модели Tobit для усеченных данных и связанных источников (например, здесь ).

— Ричард Харди

Похоже, у вас есть данные, подвергнутые цензуре, например, время жизни, когда некоторые люди умерли, но некоторые все еще живы, например, вы знаете, что, скажем,

для некоторой известной константы

x_{i} > t_{i}

$x_i > t_i$

t_{i}

$t_i$

— kjetil b halvorsen

Остерегайтесь иногда тонкого различия между этими двумя ситуациями. Нередко усечение путают с цензурой и наоборот.

— Алекос Пападопулос

Вы все еще можете оценить параметры, используя вероятность напрямую. Пусть наблюдения будут с экспоненциальным распределением со скоростью и неизвестным. Функция плотности имеет вид , кумулятивная функция распределения и функция хвоста $x_1, \dots, x_n$ $\lambda>0$ $f(x;\lambda)= \lambda e^{-\lambda x}$ $F(x;\lambda)=1-e^{-\lambda x}$ . Предположим, что первые наблюдений полностью наблюдаются, в то время как для мы знаем только, что для некоторых известных положительных постоянных . Как всегда, вероятность - это "вероятность наблюдаемых данных" для цензурированных наблюдений, которая определяется как $G(x;\lambda)=1-F(x;\lambda) = e^{-\lambda x}$ $r$ $x_{r+1}, \dots, x_n$ $x_j > t_j$ $t_j$ , поэтому полная функция правдоподобия имеет вид Логарифмическое правдоподобие функция становится $P(X_j > t_j) = G(t_j;\lambda)$

L (λ) = \prod_{i = 1}^{r} f (x_{i}; λ) \cdot \prod_{i = r + 1}^{n} G (t_{j}; λ)

$L(\lambda) = \prod_{i=1}^r f(x_i;\lambda) \cdot \prod_{i=r+1}^n G(t_j;\lambda)$

которая имеет ту же форму, что и логарифмическое правдоподобие для обычного, полностью наблюдаемого случая, за исключением первого члена

вместо

. Запись

для средних наблюдений и времени цензурирования, то оценке максимального правдоподобия

становится

l (λ) = r \log λ - λ (x_{1} + \dots + x_{r} + t_{r + 1} + \dots + t_{n})

$l(\lambda) = r\log\lambda -\lambda(x_1+\dots+x_r+t_{r+1}+\dots+ t_n)$

r \log λ

$r\log\lambda$

n \log λ

$n\log\lambda$

T

$T$

λ

$\lambda$

, который вы сами можете сравнить с полностью наблюдаемым случаем.

\hat{λ} = \frac{r}{n T}

$\hat{\lambda}=\frac{r}{nT}$

 EDIT

$r=0$

l (λ) = - n T λ

$l(\lambda) = -nT \lambda$

λ

$\lambda$

λ = 0

$\lambda=0$

λ

$\lambda$

λ

$\lambda$

Но, в любом случае, реальный вывод из данных в этом случае заключается в том, что мы должны ждать больше времени, пока не получим некоторые события ...

$\lambda$ $e^{-\lambda n T}$ $p^n$ $p$ $[\underset{\bar{}}{p}, 1]$ $\lambda$ $\log p = -\lambda T$

$p$

P (X = n) = p^{n} \geq 0.95 (say)

$P(X=n) = p^n \ge 0.95 ~~~~\text{(say)}$

n \log p \geq \log 0.95

$n\log p \ge \log 0.95$

λ

$\lambda$

λ \leq \frac{- \log 0.95}{n T} .

$\lambda \le \frac{-\log 0.95}{n T}.$

— Къетил б Халворсен
источник

x_{j} > t_{j}

$x_j > t_j$