Рекурсивное обновление MLE как нового потока наблюдений в

Общий вопрос

Скажем, у нас есть потоковые данные , , ... . Мы хотим рекурсивно вычислить оценку максимального правдоподобия . То есть, вычислив мы наблюдаем новый и хотим как-то постепенно обновлять нашу оценку без необходимости начинать с нуля. Существуют ли общие алгоритмы для этого? $x_1$ $x_2$ $\sim f(x\,|\,\boldsymbol{\theta})$ $\boldsymbol{\theta}$

{\hat{θ}}_{n - 1} = \underset{θ \in R^{p}}{\arg max} \prod_{i = 1}^{n - 1} f (x_{i} | θ),

$\hat{\boldsymbol{\theta}}_{n-1}=\underset{\boldsymbol{\theta}\in\mathbb{R}^p}{\arg\max}\prod_{i=1}^{n-1}f(x_i\,|\,\boldsymbol{\theta}),$

x_{n}

$x_n$

{\hat{θ}}_{n - 1}, x_{N} \to {\hat{θ}}_{N}

$\hat{\boldsymbol{\theta}}_{n-1},\,x_n \to \hat{\boldsymbol{\theta}}_{n}$

Пример игрушки

Если $x_1$ , $x_2$ , ... $\sim N(x\,|\,\mu, 1)$ , то

{\hat{μ}}_{N - 1} знак равно \frac{1}{N - 1} Σ_{я знак равно 1}^{N - 1} {Икс}_{я} и {\hat{μ}}_{N} знак равно \frac{1}{N} Σ_{я знак равно 1}^{N} {Икс}_{я},

$\hat{\mu}_{n-1} = \frac{1}{n-1}\sum\limits_{i=1}^{n-1}x_i\quad\text{and}\quad\hat{\mu}_n = \frac{1}{n}\sum\limits_{i=1}^nx_i,$ так что

{\hat{μ}}_{N} знак равно \frac{1}{N} [(N - 1) {\hat{μ}}_{N - 1} + {Икс}_{N}],

$\hat{\mu}_n=\frac{1}{n}\left[(n-1)\hat{\mu}_{n-1} + x_n\right].$

maximum-likelihood online

— JCZ
источник

Не забывайте обратную сторону этой проблемы: обновление оценки по мере удаления старых наблюдений.

— Hong Ooi

Рекурсивные наименьшие квадраты (RLS) - это (очень известное) решение одного конкретного случая этой проблемы, не так ли? Вообще, я бы полагал, что стохастическая фильтрация литературы может быть полезна для изучения.

— jhin

Ответы:

Смотрите понятие достаточности и, в частности, минимально достаточную статистику . Во многих случаях вам нужна целая выборка для вычисления оценки при заданном размере выборки, без тривиального способа обновления из выборки на один размер меньше (т.е. нет удобного общего результата).

Если распределение является экспоненциальным семейством (и в некоторых других случаях, кроме того, униформа - это хороший пример), есть хорошая достаточная статистика, которая во многих случаях может быть обновлена так, как вы ищете (т. Е. С помощью ряда часто используемых распределений будет быстрое обновление).

Одним из примеров, о котором я не знаю ни одного прямого способа вычисления или обновления, является оценка местоположения распределения Коши (например, с использованием единицы измерения, чтобы сделать задачу простой однопараметрической задачей). Однако может быть более быстрое обновление, которого я просто не заметил - я не могу сказать, что действительно сделал больше, чем просто взглянул на него для рассмотрения случая обновления.

С другой стороны, с MLE, полученными с помощью методов численной оптимизации, предыдущая оценка во многих случаях будет отличной отправной точкой, поскольку обычно предыдущая оценка будет очень близка к обновленной оценке; в этом смысле, по крайней мере, быстрое обновление часто должно быть возможным. Но даже это не общий случай - с мультимодальными функциями правдоподобия (снова, см. Пример с Коши), новое наблюдение может привести к тому, что самый высокий режим будет находиться на некотором расстоянии от предыдущего (даже если местоположения каждого из немногих самых больших режимов не сильно изменился, какой из них может измениться лучше всего).

— Glen_b - Восстановить Монику
источник

Благодарность! Вопрос о возможном переключении режимов MLE в среднем потоке особенно полезен для понимания того, почему это будет сложно в целом.

— JCZ

Вы можете убедиться в этом сами с помощью приведенной выше модели Коши в единичном масштабе и данных (0.1,0.11,0.12,2.91,2.921,2.933). Логарифмическая вероятность расположения мод около 0,5 и 2,5, а (немного) более высокий пик - около 0,5. Теперь сделайте следующее наблюдение 10, и мода каждого из двух пиков едва перемещается, но второй пик теперь значительно выше. Градиентный спуск не поможет вам, когда это произойдет, это все равно что начать заново. Если ваше население представляет собой смесь двух подгрупп одинакового размера с разными местоположениями, могут возникнуть такие обстоятельства -. ... ctd

— Восстановить Монику

ctd ... даже в относительно большой выборке. В правильной ситуации переключение режимов может происходить довольно часто.

— Glen_b

Условие, предотвращающее мультимодальность, состоит в том, что вероятность должна быть логически вогнутой относительно вектора параметров для всех . Это подразумевает ограничения на модель, однако.

n

$n$

— Ив

Да исправить; Я спорил с собой о том, обсуждать ли это в ответе.

— Glen_b

В машинном обучении это называется онлайн-обучением .

Как указал @Glen_b, существуют особые случаи, когда MLE может быть обновлен без необходимости доступа ко всем предыдущим данным. Как он также указывает, я не верю, что есть общее решение для поиска MLE.

Довольно общий подход для нахождения приближенного решения состоит в том, чтобы использовать что-то вроде стохастического градиентного спуска. В этом случае, когда приходит каждое наблюдение, мы вычисляем градиент по отношению к этому отдельному наблюдению и очень мало перемещаем значения параметров в этом направлении. При определенных условиях мы можем показать, что это будет сходиться к окрестности MLE с высокой вероятностью; окрестность становится все теснее, поскольку мы уменьшаем размер шага, но для сближения требуется больше данных. Тем не менее, эти стохастические методы в целом требуют гораздо больше усилий для получения хорошей производительности, чем, скажем, закрытые обновления формы.

— Клифф AB
источник