Сходимость по алгоритму EM с двумерным распределением смеси

У меня есть смешанная модель, в которой я хочу найти оценку максимального правдоподобия для данного набора данных и набора частично наблюдаемых данных . Я реализовал и E-шаг (вычисление ожидания учетом и текущих параметров ), и M-шаг, чтобы минимизировать отрицательное логарифмическое правдоподобие с учетом ожидаемого . $x$ $z$ $z$ $x$ $\theta^k$ $z$

Как я понял, максимальная вероятность увеличивается для каждой итерации, это означает, что отрицательная логарифмическая вероятность должна уменьшаться для каждой итерации? Однако, как я повторяю, алгоритм действительно не дает уменьшающихся значений логарифмического правдоподобия. Вместо этого оно может уменьшаться и увеличиваться. Например, это были значения отрицательного логарифмического правдоподобия до сходимости:

введите описание изображения здесь

Есть ли здесь, что я неправильно понял?

Кроме того, для смоделированных данных, когда я выполняю максимальное правдоподобие для истинных скрытых (ненаблюдаемых) переменных, у меня есть близкое к идеальному подгонку, что указывает на отсутствие ошибок программирования. Для EM-алгоритма он часто сходится к явно неоптимальным решениям, особенно для определенного подмножества параметров (то есть пропорций классифицирующих переменных). Хорошо известно, что алгоритм может сходиться к локальным минимумам или стационарным точкам, существует ли обычный поиск по эвристике или аналогично для увеличения вероятности нахождения глобального минимума (или максимума) . Я полагаю, что для этой конкретной проблемы существует много ошибочных классификаций, потому что в двумерной смеси одно из двух распределений принимает значения с вероятностью один (это смесь времен жизни, где истинное время жизни определяется $T=z T_0 + (1-z)\infty$ где указывает принадлежность к любому распределению. Индикатор конечно же, подвергается цензуре в наборе данных. $z$ $z$ введите описание изображения здесь

Я добавил вторую цифру, когда я начну с теоретического решения (которое должно быть близко к оптимальному). Однако, как видно, вероятность и параметры расходятся от этого решения в одно, явно уступающее.

редактировать: полные данные имеют вид где - наблюдаемое время для субъекта , указывает, связано ли время с фактическим событием или если он подвергается цензуре справа (1 обозначает событие, а 0 обозначает правую цензуру), - это время усечения наблюдения (возможно, 0) с индикатором усечения и, наконец, - это индикатор того, к какой популяции относится наблюдение (так как его двумерный нам нужно только рассмотреть 0 и 1). $\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)$ $t_i$ $i$ $\delta_i$ $L_i$ $\tau_i$ $z_i$

Для имеем функцию плотности , аналогично она связана с функцией распределения хвоста . Для интересующее событие не произойдет. Хотя связано с этим распределением, мы определяем его как , поэтому и . Это также дает следующее полное распределение смеси: $z=1$ $f_z(t)=f(t|z=1)$ $S_z(t)=S(t|z=1)$ $z=0$ $t$ $\inf$ $f(t|z=0)=0$ $S(t|z=0)=1$

$f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)$ и $S(t) = 1 - p + pS_z(t)$

Перейдем к определению общей формы вероятности:

$L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}}$

Теперь наблюдается только частично, когда , иначе оно неизвестно. Полная вероятность становится $z$ $\delta=1$

$L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}}$

где - вес соответствующего распределения (возможно, связанный с некоторыми ковариатами и их соответствующими коэффициентами некоторой функцией связи). В большинстве литератур это упрощается до следующего логарифмического правдоподобия $p$

$\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - \tau_i\big(z_i \ln(p) + (1-z_i)\ln(1-p)\big) + \delta_i z_i f_z(t_i;\theta) + (1-\delta_i) z_i S_z(t_i;\theta) - \tau_i S_z(L_i;\theta)\Big)$

Для M-шага эта функция максимизируется, хотя не полностью в 1 методе максимизации. Вместо этого мы не хотим, чтобы это можно было разделить на части . $l(\theta,p; \cdot) = l_1(\theta,\cdot) + l_2(p,\cdot)$

Для k: th + 1 E-шага мы должны найти ожидаемое значение (частично) ненаблюдаемых скрытых переменных . Мы используем тот факт, что для , то . $z_i$ $\delta=1$ $z=1$

$E(z_i|\mathbf{x_i},\theta^{(k)},p^{(k)}) = \delta_i + (1-\delta_i) P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})$

Здесь мы имеем $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i}) =\frac{P(\mathbf{x_i};\theta^{(k)},p^{(k)}|z_i=1)P(z_i=1;\theta^{(k)},p^{(k)})}{P(\mathbf{x_i};\theta^{(k)},p^{(k)})}$

что дает нам $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})=\frac{pS_z(t_i;\theta^{(k)})}{1 - p + pS_z(t_i;\theta^{(k)})}$

(Обратите внимание, что , поэтому наблюдаемое событие отсутствует, поэтому вероятность данных определяется функцией распределения хвоста. $\delta_i=0$ $\mathbf{x_i}$

maximum-likelihood mixture expectation-maximization

— Хороший парень майк
источник

Не могли бы вы написать переменные нашей задачи с самого начала и ваши уравнения E и M?

— Альберто

Конечно, я отредактировал вопрос с более подробной информацией о E и M-step

— Good Guy Mike

Для пояснения, нанесенные значения представляют собой полный MLE с учетом оценочных значений для неполных данных.

— Хороший парень Майк

Что такое ? Я не понимаю, «хотя с этим распределением не связано t, мы определяем его как inf ...».

S_{z}

$S_z$

— Wij

EM-алгоритм напрямую максимизирует ожидаемую вероятность полных данных, но может гарантировать увеличение вероятности наблюдаемых данных. Вы проверяете увеличение вероятности наблюдаемых данных?

— Рандель

Цель EM - максимизировать наблюдаемую вероятность регистрации данных,

L (θ) знак равно \underset{я}{Σ} пер [\underset{Z}{Σ} п ({Икс}_{я}, Z | θ)]

$l(\theta) = \sum_i \ln \left[ \sum_{z} p(x_i, z| \theta) \right]$

К сожалению, это трудно оптимизировать в отношении . Вместо этого EM многократно формирует и максимизирует вспомогательную функцию $\theta$

Q (θ, θ^{T}) знак равно Е_{Z | θ^{T}} (\underset{я}{Σ} пер п ({Икс}_{я}, Z_{я} | θ))

$Q(\theta , \theta^t) = \mathbb{E}_{z|\theta^t} \left (\sum_i \ln p(x_i, z_i| \theta) \right)$

Если максимизирует , EM гарантирует, что $\theta^{t+1}$ $Q(\theta, \theta^t)$

L (θ^{T + 1}) \geq Q (θ^{T + 1}, θ^{T}) \geq Q (θ^{T}, θ^{T}) знак равно L (θ^{T})

$l(\theta^{t+1}) \geq Q(\theta^{t+1}, \theta^t) \geq Q(\theta^t, \theta^t) = l(\theta^t)$

Если вы хотите точно знать, почему это так, хорошее объяснение дает раздел 11.4.7 « Машинного обучения Мерфи : вероятностная перспектива» . Если ваша реализация не удовлетворяет этим неравенствам, вы где-то допустили ошибку. Говоря такие вещи, как

У меня близко к идеальной подгонке, указывая, что нет ошибок программирования

опасный. Благодаря большому количеству алгоритмов оптимизации и обучения очень легко совершать ошибки, но в большинстве случаев все равно получать правильные ответы. Мне нравится интуиция, что эти алгоритмы предназначены для работы с грязными данными, поэтому неудивительно, что они также хорошо справляются с ошибками!

На другой половине вашего вопроса,

Существует ли обычный поиск эвристический или аналогично, чтобы увеличить вероятность нахождения глобального минимума (или максимума)

Случайный перезапуск - самый простой подход; Следующим наиболее простым, вероятно, является моделируемый отжиг по начальным параметрам. Я также слышал о варианте EM, называемом детерминированным отжигом , но я не использовал его лично, поэтому не могу вам рассказать об этом.

— Энди Джонс
источник

Хороший ответ (+1). Было бы еще лучше, если бы вы включили формальные ссылки (в частности, ссылку на частично цитируемый источник «Машинное обучение: вероятностная перспектива»).

— Александр Блех

Большое спасибо за ответ. Я обнаружил, что алгоритм корректно сходится теперь после исправления ошибки в коде, но только когда я исключаю свои усеченные данные. В противном случае это выходит из строя. Я считаю, что это результат некоторых ошибок.

— Хороший парень Майк

Фактически, проблема в том, что я имею дело с «гетерогенным усечением», то есть для каждого наблюдения существует отдельная точка усечения , а не единодушный порог усечения для всех наблюдений. Я никогда не сталкивался или не могу найти эти настройки в литературе, поэтому я не могу проверить, правильно ли я их решаю. Если бы вы случайно увидели эту настройку, я хотел бы взглянуть на эти ссылки!

L_{i}

$L_i$

— Хороший парень Майк