Применение максимизации ожиданий к примерам подбрасывания монет

В последнее время я самостоятельно изучал максимизацию ожиданий и собрал в процессе несколько простых примеров:

От сюда : Есть три монеты $c_0$ , $c_1$ и $c_2$ с $p_0$ , $p_1$ и $p_2$ соответствующей вероятностью для посадки на голове , когда кинули. Бросок $c_0$ . Если результат - голова, бросьте $c_1$ три раза, иначе бросьте $c_2$ три раза. Наблюдаемые данные, полученные с помощью $c_1$ и $c_2$ выглядят так: HHH, TTT, HHH, TTT, HHH. Скрытые данные - результат $c_0$ . Оценка $p_0$ , $p_1$ и $p_2$ .

И отсюда : есть две монеты $c_A$ и $c_B$ где $p_A$ и $p_B$ являются соответствующей вероятностью посадки на голову при подбрасывании. В каждом раунде выбирайте одну монету случайным образом и подбрасывайте ее десять раз; запишите результаты. Наблюдаемые данные представляют собой результаты броска, представленные этими двумя монетами. Однако мы не знаем, какая монета была выбрана для определенного раунда. Расчетный $p_A$ и $p_B$ .

Хотя я могу получить расчеты, я не могу связать способы их решения с оригинальной теорией ЭМ. В частности, во время M-Step обоих примеров я не вижу, как они максимизируют что-либо. Просто кажется, что они пересчитывают параметры и каким-то образом новые параметры лучше, чем старые. Более того, два E-шага даже не похожи друг на друга, не говоря уже об E-Step оригинальной теории.

Так как именно эти примеры работают?

probability-theory statistics

— IcySnow
источник

В первом примере, сколько экземпляров одного и того же эксперимента мы получаем? Во втором примере, каков закон «выбрать одну монету случайным образом»? Сколько раундов мы наблюдаем?

— Рафаэль

PDF-файлы, которые я связал, уже решают эти два примера шаг за шагом. Тем не менее, я не совсем понимаю используемый алгоритм EM.

— IcySnow

@IcySnow, вы понимаете концепцию ожидания и условного ожидания случайной величины?

— Николас Манкузо

Я понимаю базовое ожидание случайной величины и условную вероятность. Однако я не знаком с условным ожиданием, его производной и достаточной статистикой.

— IcySnow

(Этот ответ использует вторую ссылку, которую вы дали.)

$\newcommand{\Like}{\text{L}}\newcommand{\E}{\text{E}}$ Напомним определение вероятности: где в нашем случае являются оценками вероятности того, что монеты A и B соответственно приземляются, являются результатами наших экспериментов, каждый состоит из 10 сальто, а - монета, используемая в каждом эксперименте.

L [θ | X] = Pr [X | θ] = \sum_{Z} Pr [X, Z | θ]

$\Like[\theta | X] = \Pr[X| \theta] = \sum_Z \Pr[X, Z | \theta]$

θ = (θ_{A}, θ_{B})

$\theta = (\theta_A, \theta_B)$

X = (X_{1}, \dots, X_{5})

$X = (X_1, \dotsc, X_5)$

X_{i}

$X_i$

Z = (Z_{1}, \dots, Z_{5})

$Z = (Z_1, \dotsc, Z_5)$

Мы хотим найти оценку максимального правдоподобия . Алгоритм Expectation-Maximization (EM) является одним из таких методов поиска (по крайней мере локального) . Он работает, находя условное ожидание, которое затем используется для максимизации . Идея состоит в том, что, непрерывно находя более вероятную (т.е. более вероятную) на каждой итерации, мы будем постоянно увеличивать что, в свою очередь, увеличивает функцию правдоподобия. Перед тем, как приступить к разработке алгоритма на основе ЭМ, необходимо сделать три вещи. $\hat{\theta}$ $\hat{\theta}$ $\theta$ $\theta$ $\Pr[X,Z|\theta]$

Построить модель
Вычислить условное ожидание по модели (E-Step)
Увеличьте нашу вероятность, обновив нашу текущую оценку (M-Step) $\theta$

Построить модель

Прежде чем мы продолжим работу с EM, нам нужно выяснить, что именно мы вычисляем. На шаге E мы вычисляем точно ожидаемое значение для . Так что же это за ценность на самом деле? Заметьте, что Причина в том, что у нас есть 5 экспериментов, и мы не знаем, какая монета использовалась в каждом. Неравенство связано с $\log \Pr[X,Z|\theta]$

\begin{aligned} \log Pr [X, Z | θ] & = \sum_{i = 1}^{5} \log \sum_{C \in {A, B}} Pr [X_{i}, Z_{i} = C | θ] \\ = \sum_{i = 1}^{5} \log \sum_{C \in {A, B}} Pr [Z_{i} = C | X_{i}, θ] \cdot \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [Z_{i} = C | X_{i}, θ]} \\ \geq \sum_{i = 1}^{5} \sum_{C \in {A, B}} Pr [Z_{i} = C | X_{i}, θ] \cdot \log \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [Z_{i} = C | X_{i}, θ]} . \end{aligned}

$\begin{align*} \log \Pr[X,Z|\theta] &= \sum_{i=1}^5 \log\sum_{C\in \{A,B\}}\Pr[X_i, Z_i=C| \theta]\\ &=\sum_{i=1}^5 \log\sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}\\ &\geq \sum_{i=1}^5 \sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \log\frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}. \end{align*}$

\log

$\log$ будучи вогнутым и применяя неравенство Дженсена. Причина, по которой нам нужна эта нижняя граница, заключается в том, что мы не можем напрямую вычислить arg max для исходного уравнения. Однако мы можем вычислить его для окончательной нижней границы.

Теперь, что такое ? Это вероятность того, что мы видим монету учетом эксперимента и . Используя условные вероятности, мы имеем $\Pr[Z_i=C|X_i,\theta]$ $C$ $X_i$ $\theta$

Pr [Z_{i} = C | X_{i}, θ] = \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [X_{i} | θ]} .

$\Pr[Z_i=C| X_i, \theta] = \frac{\Pr[X_i, Z_i = C|\theta]}{\Pr[X_i|\theta]}.$

Хотя мы добились определенного прогресса, мы еще не закончили с моделью. Какова вероятность того, что данная монета перевернула последовательность ? Пусть Теперь , очевидно , только вероятность при обеих возможностях или . Поскольку имеем $X_i$ $h_i = \#\text{heads in } X_i$

Pr [X_{i}, Z_{i} = C | θ] = \frac{1}{2} \cdot θ_{C}^{h_{i}} (1 - θ_{C})^{10 - h_{i}}, for C \in {A, B} .

$\Pr[X_i, Z_i = C| \theta] = \frac{1}{2} \cdot \theta_C^{h_i} (1 - \theta_C)^{10 - h_i},\ \text{ for } \ C \in \{A, B\}.$

Pr [X_{i} | θ]

$\Pr[X_i|\theta]$

Z_{i} = A

$Z_i=A$

Z_{i} = B

$Z_i=B$

Pr [Z_{i} = A] = Pr [Z_{i} = B] = 1 / 2

$\Pr[Z_i = A] = \Pr[Z_i = B] = 1/2$

Pr [X_{i} | θ] = 1 / 2 \cdot (Pr [X_{i} | Z_{i} = A, θ] + Pr [X_{i} | Z_{i} = B, θ]) .

$\Pr[X_i|\theta] = 1/2 \cdot (\Pr[X_i |Z_i = A, \theta] + \Pr[X_i |Z_i = B, \theta]).$

E-Step

Ладно ... это было не так весело, но мы можем начать делать кое-какую работу сейчас. Алгоритм EM начинается с некоторого случайного предположения для . В этом примере мы имеем . Мы вычисляем Это значение совпадает с тем, что есть в статье. Теперь мы можем вычислить ожидаемое количество голов в из монеты , Делая то же самое для монеты мы получаем, $\theta$ $\theta^0 = (0.6,0.5)$

Pr [Z_{1} = A | X_{1}, θ] = \frac{1 / 2 \cdot ({0.6}^{5} \cdot {0.4}^{5})}{1 / 2 \cdot (({0.6}^{5} \cdot {0.4}^{5}) + ({0.5}^{5} \cdot {0.5}^{5}))} \approx 0.45.

$\Pr[Z_1=A|X_1,\theta] = \frac{1/2 \cdot (0.6^5 \cdot 0.4^5)}{1/2 \cdot ((0.6^5 \cdot 0.4^5) + (0.5^5 \cdot 0.5^5))} \approx 0.45.$

X_{1} = (H, T, T, T, H, H, T, H, T, H)

$X_1 = (H,T,T,T,H,H,T,H,T,H)$

A

$A$

E [# heads by coin A | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot 0.45 \approx 2.2.

$\E[\# \text{heads by coin }A | X_1, \theta] = h_1 \cdot \Pr[Z_1=A|X_1,\theta] = 5 \cdot 0.45 \approx 2.2.$

B

$B$

E [# heads by coin B | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = B | X_{1}, θ] = 5 \cdot 0.55 \approx 2.8.

$\E[\# \text{heads by coin }B | X_1, \theta] = h_1 \cdot \Pr[Z_1=B|X_1,\theta] = 5 \cdot 0.55 \approx 2.8.$ Мы можем вычислить то же самое для количества хвостов, подставив для . Это продолжается для всех других значений и . Благодаря линейности ожидания мы можем вычислить

h_{1}

$h_1$

10 - h_{1}

$10 - h_1$

X_{i}

$X_i$

h_{i}

$h_i$

1 \leq i \leq 5

$1 \leq i \leq 5$

E [# heads by coin A | X, θ] = \sum_{i = 1}^{5} E [# heads by coin A | X_{i}, θ]

$\E[\#\text{heads by coin } A|X ,\theta] = \sum_{i=1}^5 \E[\# \text{heads by coin }A | X_i, \theta]$

М-Шаг

Теперь, когда у нас есть ожидаемые значения, наступает этап М, на котором мы хотим максимизировать учетом ожидаемых значений. Это делается простой нормализацией! Точно так же для . Этот процесс начинается снова с E-шага и и продолжается до тех пор, пока значения для сходятся (или до некоторого допустимого порога). В этом примере у нас есть 10 итераций и . На каждой итерации значение увеличивается из-за лучшей оценки $\theta$

θ_{A}^{1} = \frac{E [# heads over X by coin A | X, θ]}{E [# heads and tails over X by coin A | X, θ]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.

$\theta_A^1 = \frac{E[\#\text{heads over } X \text{ by coin } A|X ,\theta]}{E[\#\text{heads and tails over } X \text{ by coin } A|X ,\theta]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.$

B

$B$

θ^{1}

$\theta^1$

θ

$\theta$

\hat{θ} = θ^{10} = (0.8, 0.52)

$\hat{\theta} = \theta^{10} = (0.8, 0.52)$

Pr [X, Z | θ]

$\Pr[X,Z|\theta]$

θ

$\theta$ .

Теперь в этом случае модель была довольно упрощенной. Все может стать намного сложнее довольно быстро, однако алгоритм EM всегда будет сходиться и всегда будет давать оценку максимального правдоподобия . Это может быть локальная оценка, но чтобы обойти это, мы можем просто перезапустить EM-процесс с другой инициализацией. Мы можем делать это постоянное количество раз и сохранять лучшие результаты (т. Е. Те, которые имеют наивысшую конечную вероятность). $\hat{\theta}$

— Николас Манкузо
источник

Если какие-либо части не ясны, я могу попытаться расширить их также.

— Николас Манкузо

Теперь становится намного понятнее. На самом деле я не понимаю, почему ожидаемое количество голов для монеты A было рассчитано следующим образом: E [# голов от монеты A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0,45 ≈2.2? Проблема, упомянутая в первом PDF, является более сложной. Если вы не возражаете, можете ли вы сделать несколько иллюстративных расчетов для этого? Большое спасибо за ваш ответ.

— IcySnow

@IcySnow, насколько рассчитывает ожидание: . Причина в том, что вы можете подумать о наличии другой случайной величины индикатора, если бы использовалась буква A. Вычисление ожидания по индикаторным переменным является простой вероятностью этого события.

E [# heads by coin A | X_{1}, θ] = \sum_{# heads in X_{1}} Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot Pr [Z_{1} = A | X_{1}, θ]

$E[\# \text{ heads by coin }A|X_1,\theta] = \sum_{\#\text{ heads in }X_1} \Pr[Z_1 = A| X_1, \theta] = 5 \cdot \Pr[Z_1 = A| X_1, \theta]$

— Николас Манкузо

Извините за медленный ответ. Благодаря вам, теперь я могу по-настоящему понять логику двух примеров монет, пройдя через ваш ответ много раз. В связи с этим вопросом я хочу спросить еще об одном: пример, начиная со страницы 8 на этом слайде cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt, показывает, что на этапе M мы должны сначала вычислить производная логарифмической функции правдоподобия и использовать ее для максимизации ожидания. Почему что-то не так в M-Steps примеров броска монеты? Потому что эти M-шаги не выглядят так, как будто они максимизируют что-либо

— IcySnow

Меня смущает первое отображаемое уравнение после «Построения модели». Можете ли вы объяснить, откуда это взялось? Мне кажется, что , поэтому внутренняя сумма равна 1 для каждого , поэтому вся правая часть становится ноль. Я уверен, что что-то упустил - можете ли вы объяснить, как вы пришли к этому уравнению?

Pr [Z_{i} = A | X_{i}, θ] + Pr [Z_{i} = B | X_{i}, θ] = 1

$\Pr[Z_i=A|X_i,\theta]+\Pr[Z_i=B|X_i,\theta]=1$

i

$i$

— DW