Применение максимизации ожиданий к примерам подбрасывания монет


18

В последнее время я самостоятельно изучал максимизацию ожиданий и собрал в процессе несколько простых примеров:

От сюда : Есть три монеты c0 , c1 и c2 с p0 , p1 и p2 соответствующей вероятностью для посадки на голове , когда кинули. Бросок c0 . Если результат - голова, бросьте c1 три раза, иначе бросьте c2 три раза. Наблюдаемые данные, полученные с помощью c1 и c2 выглядят так: HHH, TTT, HHH, TTT, HHH. Скрытые данные - результат c0 . Оценка p0 ,p1 иp2 .

И отсюда : есть две монеты cA и cB где pA и pB являются соответствующей вероятностью посадки на голову при подбрасывании. В каждом раунде выбирайте одну монету случайным образом и подбрасывайте ее десять раз; запишите результаты. Наблюдаемые данные представляют собой результаты броска, представленные этими двумя монетами. Однако мы не знаем, какая монета была выбрана для определенного раунда. Расчетный pA и pB .

Хотя я могу получить расчеты, я не могу связать способы их решения с оригинальной теорией ЭМ. В частности, во время M-Step обоих примеров я не вижу, как они максимизируют что-либо. Просто кажется, что они пересчитывают параметры и каким-то образом новые параметры лучше, чем старые. Более того, два E-шага даже не похожи друг на друга, не говоря уже об E-Step оригинальной теории.

Так как именно эти примеры работают?


В первом примере, сколько экземпляров одного и того же эксперимента мы получаем? Во втором примере, каков закон «выбрать одну монету случайным образом»? Сколько раундов мы наблюдаем?
Рафаэль

PDF-файлы, которые я связал, уже решают эти два примера шаг за шагом. Тем не менее, я не совсем понимаю используемый алгоритм EM.
IcySnow

@IcySnow, вы понимаете концепцию ожидания и условного ожидания случайной величины?
Николас Манкузо

Я понимаю базовое ожидание случайной величины и условную вероятность. Однако я не знаком с условным ожиданием, его производной и достаточной статистикой.
IcySnow

Ответы:


12

(Этот ответ использует вторую ссылку, которую вы дали.)

Напомним определение вероятности: где в нашем случае являются оценками вероятности того, что монеты A и B соответственно приземляются, являются результатами наших экспериментов, каждый состоит из 10 сальто, а - монета, используемая в каждом эксперименте.θ = ( θ A , θ B ) X = ( X 1 , , X 5 ) X i Z = ( Z 1 , , Z 5 )

L[θ|X]=Pr[X|θ]=ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,,X5)XiZ=(Z1,,Z5)

Мы хотим найти оценку максимального правдоподобия . Алгоритм Expectation-Maximization (EM) является одним из таких методов поиска (по крайней мере локального) . Он работает, находя условное ожидание, которое затем используется для максимизации . Идея состоит в том, что, непрерывно находя более вероятную (т.е. более вероятную) на каждой итерации, мы будем постоянно увеличивать что, в свою очередь, увеличивает функцию правдоподобия. Перед тем, как приступить к разработке алгоритма на основе ЭМ, необходимо сделать три вещи. ; & thetas ; & thetasthetasPr[X,Z| θ]θ^θ^θθPr[X,Z|θ]

  1. Построить модель
  2. Вычислить условное ожидание по модели (E-Step)
  3. Увеличьте нашу вероятность, обновив нашу текущую оценку (M-Step)θ

Построить модель

Прежде чем мы продолжим работу с EM, нам нужно выяснить, что именно мы вычисляем. На шаге E мы вычисляем точно ожидаемое значение для . Так что же это за ценность на самом деле? Заметьте, что Причина в том, что у нас есть 5 экспериментов, и мы не знаем, какая монета использовалась в каждом. Неравенство связано сlog Pr [ X , Z | θ ]logPr[X,Z|θ]журнал

logPr[X,Z|θ]=i=15logC{A,B}Pr[Xi,Zi=C|θ]=i=15logC{A,B}Pr[Zi=C|Xi,θ]Pr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ]i=15C{A,B}Pr[Zi=C|Xi,θ]logPr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ].
logбудучи вогнутым и применяя неравенство Дженсена. Причина, по которой нам нужна эта нижняя граница, заключается в том, что мы не можем напрямую вычислить arg max для исходного уравнения. Однако мы можем вычислить его для окончательной нижней границы.

Теперь, что такое ? Это вероятность того, что мы видим монету учетом эксперимента и . Используя условные вероятности, мы имеемC X i θ Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]Pr[Zi=C|Xi,θ]CXiθ

Pr[Zi=C|Xi,θ]=Pr[Xi,Zi=C|θ]Pr[Xi|θ].

Хотя мы добились определенного прогресса, мы еще не закончили с моделью. Какова вероятность того, что данная монета перевернула последовательность ? Пусть Теперь , очевидно , только вероятность при обеих возможностях или . Поскольку имеем h i = # головы в  X i Pr [ X i , Z i = C | θ ] = 1Xihi=#heads in Xi Pr[Xi| θ]Zя=Zя=BPr[Zя=]=Pr[Zя=B]=1/2

Pr[Xi,Zi=C|θ]=12θChi(1θC)10hi,  for  C{A,B}.
Pr[Xi|θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
Pr[Xi|θ]=1/2(Pr[Xi|Zi=A,θ]+Pr[Xi|Zi=B,θ]).

E-Step

Ладно ... это было не так весело, но мы можем начать делать кое-какую работу сейчас. Алгоритм EM начинается с некоторого случайного предположения для . В этом примере мы имеем . Мы вычисляем Это значение совпадает с тем, что есть в статье. Теперь мы можем вычислить ожидаемое количество голов в из монеты , Делая то же самое для монеты мы получаем, θθ0=(0.6,0.5)

Pr[Z1=A|X1,θ]=1/2(0.650.45)1/2((0.650.45)+(0.550.55))0.45.
X1=(H,T,T,T,H,H,T,H,T,H)A
E[#heads by coin A|X1,θ]=h1Pr[Z1=A|X1,θ]=50.452.2.
B
E[#heads by coin B|X1,θ]=h1Pr[Z1=B|X1,θ]=50.552.8.
Мы можем вычислить то же самое для количества хвостов, подставив для . Это продолжается для всех других значений и . Благодаря линейности ожидания мы можем вычислить h110h1Xihi 1i5
E[#heads by coin A|X,θ]=i=15E[#heads by coin A|Xi,θ]

М-Шаг

Теперь, когда у нас есть ожидаемые значения, наступает этап М, на котором мы хотим максимизировать учетом ожидаемых значений. Это делается простой нормализацией! Точно так же для . Этот процесс начинается снова с E-шага и и продолжается до тех пор, пока значения для сходятся (или до некоторого допустимого порога). В этом примере у нас есть 10 итераций и . На каждой итерации значение увеличивается из-за лучшей оценкиθ

θA1=E[#heads over X by coin A|X,θ]E[#heads and tails over X by coin A|X,θ]=21.321.3+9.60.71.
Bθ1θθ^=θ10=(0.8,0.52)Pr[X,Z|θ]θ .

Теперь в этом случае модель была довольно упрощенной. Все может стать намного сложнее довольно быстро, однако алгоритм EM всегда будет сходиться и всегда будет давать оценку максимального правдоподобия . Это может быть локальная оценка, но чтобы обойти это, мы можем просто перезапустить EM-процесс с другой инициализацией. Мы можем делать это постоянное количество раз и сохранять лучшие результаты (т. Е. Те, которые имеют наивысшую конечную вероятность).θ^


Если какие-либо части не ясны, я могу попытаться расширить их также.
Николас Манкузо

Теперь становится намного понятнее. На самом деле я не понимаю, почему ожидаемое количество голов для монеты A было рассчитано следующим образом: E [# голов от монеты A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0,45 ≈2.2? Проблема, упомянутая в первом PDF, является более сложной. Если вы не возражаете, можете ли вы сделать несколько иллюстративных расчетов для этого? Большое спасибо за ваш ответ.
IcySnow

@IcySnow, насколько рассчитывает ожидание: . Причина в том, что вы можете подумать о наличии другой случайной величины индикатора, если бы использовалась буква A. Вычисление ожидания по индикаторным переменным является простой вероятностью этого события. E[# heads by coin A|X1,θ]=# heads in X1Pr[Z1=A|X1,θ]=5Pr[Z1=A|X1,θ]
Николас Манкузо

Извините за медленный ответ. Благодаря вам, теперь я могу по-настоящему понять логику двух примеров монет, пройдя через ваш ответ много раз. В связи с этим вопросом я хочу спросить еще об одном: пример, начиная со страницы 8 на этом слайде cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt, показывает, что на этапе M мы должны сначала вычислить производная логарифмической функции правдоподобия и использовать ее для максимизации ожидания. Почему что-то не так в M-Steps примеров броска монеты? Потому что эти M-шаги не выглядят так, как будто они максимизируют что-либо
IcySnow

Меня смущает первое отображаемое уравнение после «Построения модели». Можете ли вы объяснить, откуда это взялось? Мне кажется, что , поэтому внутренняя сумма равна 1 для каждого , поэтому вся правая часть становится ноль. Я уверен, что что-то упустил - можете ли вы объяснить, как вы пришли к этому уравнению? iPr[Zi=A|Xi,θ]+Pr[Zi=B|Xi,θ]=1i
DW
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.