Байесовское онлайн-обнаружение точек изменения (предельное прогнозное распределение)

Я читаю байесовскую онлайн-статью об обнаружении точек смены Адамса и Маккея ( ссылка ).

Авторы начинают с написания предельного распределительного предсказания: где

P (x_{t + 1} | x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} | r_{t}, x_{t}^{(r)}) P (r_{t} | x_{1 : t}) (1)

$P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1)$

$x_t$ - наблюдение в момент времени ; $t$
$\textbf{x}_{1:t}$ обозначает набор наблюдений до момента времени ; $t$
$r_t \in \mathbb{N}$ - текущая длина цикла (время с момента последнего изменения может быть 0); а также
$\textbf{x}_t^{(r)}$ - это набор наблюдений, связанных с прогоном . $r_t$

Eq. 1 является формально правильным (см. Ответ ниже @JuhoKokkala), но я понимаю, что если вы действительно хотите сделать прогноз о вам нужно расширить его следующим образом: $x_{t+1}$

P (x_{t + 1} | x_{1 : t}) = \sum_{r_{t}, r_{t + 1}} P (x_{t + 1} | r_{t + 1}, x_{t}^{(r)}) P (r_{t} | x_{1 : t}) P (r_{t + 1} | r_{t}) (1 b)

$P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) \qquad (1\text{b})$

Мое рассуждение состоит в том, что вполне может быть точка изменения в (будущем) времени , но апостериорный охватывает только до . $t+1$ $P(r_t | \textbf{x}_{1:t})$ $t$

Дело в том, что авторы в статье делают нас из уравнения. 1 как есть (см. Уравнения 3 и 11 в статье), а не 1b. Таким образом, они, по-видимому, игнорируют возможность изменения точки в момент времени при прогнозировании из данных, доступных в момент времени . В начале раздела 2 они говорят en passant $t+1$ $x_{t+1}$ $t$

Мы предполагаем, что мы можем вычислить прогнозирующее распределение [для ] при условии заданной длины . $x_{t+1}$ $r_t$

что, возможно, в этом и заключается хитрость. Но в целом, это прогнозное распределение должно выглядеть примерно как 1b; что не то, что они делают (уравнение 11).

Так что я не уверен, что понимаю, что происходит. Возможно, что-то смешное происходит с обозначениями.

Ссылка

Adams, RP & MacKay, DJ (2007). Байесовское обнаружение онлайн-изменений. Препринт arXiv arXiv: 0710.3742.

— lacerbi
источник

Потенциальное объяснение состоит в том, что представляет длину пробега в конце временного шага , который находится после точки изменения в момент времени . С этим, уравнение 1 имеет смысл. Фактически, одной из инициализаций алгоритма является установка что предполагает наличие точки изменения непосредственно перед началом в . Однако рисунок 1 неверен (или, по крайней мере, вводит в заблуждение) в том смысле, что если существует точка изменения между и и между и как изображено на рис. 1a, то и

r_{t}

$r_t$

t

$t$

t

$t$

P (r_{0} = 0) = 1

$P(r_0 =0) = 1$

t = 1

$t=1$

t = 4

$t =4$

t = 5

$t=5$

t = 10

$t=10$

t = 11

$t=11$

r_{4}

$r_4$

r_{10}

$r_{10}$ должно быть 0 в соответствии с этим обозначением, а не и согласно 1b.

r_{5}

$r_5$

r_{11}

$r_{11}$

— Lacerbi

В уравнении происходит нечто странное. 3, поскольку средний фактор в слагаемом в последней строке равен то время как я думал, что содержит . Я подозреваю, что и поменялись местами, так как имеет смысл. В формуле 11, правая часть, кажется, зависит от который вообще не отображается в левой части, так что либо что-то не так, либо я вообще не понимаю обозначения.

P (x_{t} ∣ r_{t - 1}, x_{t}^{(r)})

$P(x_t \mid r_{t-1}, x^{(r)}_t)$

x_{t}^{(r)}

$x^{(r)}_t$

x_{t}

$x_t$

t

$t$

t - 1

$t-1$

P (x_{t} ∣ r_{t}, x_{t - 1}^{(r)})

$P(x_t \mid r_t, x^{(r)}_{t-1})$

x_{t}^{(r)}

$x_t^{(r)}$

— Юхо Коккала

@JuhoKokkala: Я рад, что я не единственный, у кого такое чувство ...

— lacerbi

@lacerbi, у меня есть еще один вопрос по поводу этой статьи, и я думаю, что вы сможете ответить на него, поскольку вы, кажется, знакомы с работой: stats.stackexchange.com/questions/419988 .

— GWG

Оба (1) и (1b) являются правильными. ОП имеет право на то, что (в этой модели) может быть точка изменения в момент времени , и зависит от того, существует ли точка изменения. Это не влечет за собой никаких проблем с (1), поскольку возможные значения полностью «покрыты» . означает условное распределение обусловливающие . Это условное распределение усредняется по «всему остальному», включая , условно по . Также как можно написать, скажем, $t+1$ $x_{t+1}$ $r_{t+1}$ $P(x_{t+1} \mid r_t, x_{1:t})$ $P(x_{t+1} | r_t, x_{1:t})$ $x_{t+1}$ $(r_t, x_{1:t})$ $r_{t+1}$ $(r_t, x_{1:t})$ $P(x_{t+1000} | x_t)$ , что будет учитывать все возможные конфигурации точек изменения, а также значения s, возникающие между и . $x_i$ $t$ $t+1000$

В остальном я сначала получаю (1), а затем (1b) на основе (1).

Вывод (1)

Для любых случайных величин имеем пока является дискретным (в противном случае сумма должна быть заменена интегралом). Применяя это к : $A,B,C$

P (A ∣ B) = \sum_{c} P (A ∣ B, C = c) P (C = c ∣ B),

$\begin{equation} P(A \mid B) = \sum_c P(A \mid B, C=c)\,P(C=c \mid B), \end{equation}$

C

$C$

x_{t + 1}, x_{1 : t}, r_{t}

$x_{t+1},x_{1:t},r_t$

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} ∣ r_{t}, x_{1 : t}) P (r_{t} ∣ x_{1 : t}),

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} P(x_{t+1} \mid r_t, x_{1:t})\,P(r_t \mid x_{1:t}), \end{equation}$ которое содержит независимо от того, каковы зависимости между , , , то есть никаких модельных предположений пока нет был использован. В настоящей модели заданным предполагается * условно независимым от значений из прогонов до . Это подразумевает . Подставляя это в предыдущее уравнение, получим

r_{t}

$r_t$

x_{1 : t}

$x_{1:t}$

x_{t + 1}

$x_{t+1}$

x_{t + 1}

$x_{t+1}$

r_{t}, x_{t}^{(r)}

$r_t,x^{(r)}_t$

x

$x$

x_{t}^{(r)}

$x^{(r)}_t$

P (x_{t + 1} ∣ r_{t}, x_{1 : t}) = P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)})

$P(x_{t+1} \mid r_t, x_{1:t}) = P(x_{t+1} \mid r_t, x^{(r)}_t)$

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) P (r_{t} ∣ x_{1 : t}), (1)

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} P(x_{t+1} \mid r_t, x^{(r)}_t)\,P(r_t \mid x_{1:t}), \qquad \qquad \qquad (1) \end{equation}$ которое (1) в OP.

Вывод (1b)

Рассмотрим разложение на возможные значения : $P(x_{t+1} \mid r_t, x^{(r)}_t)$ $r_{t+1}$

P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) = \sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, r_{t}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t}, x_{t}^{(r)}) .

$\begin{equation} P(x_{t+1} \mid r_t, x^{(r)}_t) = \sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, r_t, x^{(r)}_t)P(r_{t+1} \mid r_t, x^{(r)}_t). \end{equation}$

Поскольку предполагается *, что возникновение точки изменения в (между и ) не зависит от истории , мы имеем . Кроме того, поскольку определяет, принадлежит ли к тому же , что и , мы имеем . Подставляя эти два упрощения в приведенную выше факторизацию, мы получаем $t+1$ $x_t$ $x_{t+1}$ $x$ $P(r_{t+1} \mid r_t, x^{(r)}_t) = P(r_{t+1} \mid r_t)$ $r_{t+1}$ $x_{t+1}$ $x_t$ $P(x_{t+1} \mid r_{t+1}, r_t, x^{(r)}_t)=P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)$

P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) = \sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t}) .

$\begin{equation} P(x_{t+1} \mid r_t, x^{(r)}_t) = \sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)P(r_{t+1} \mid r_t). \end{equation}$ Подставляя это в (1), мы получаем которое является OP (1b).

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} (\sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t})) P (r_{t} ∣ x_{1 : t}), (1 b)

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} \left(\sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)P(r_{t+1} \mid r_t)\right)\,P(r_t \mid x_{1:t}), \qquad (1b) \end{equation}$

* Замечание об условных предположениях независимости модели

Основываясь на быстром просмотре статьи, я лично хотел бы, чтобы свойства условной независимости были где-то более явно указаны, но я предполагаю, что предполагается, что марковское, а : s, связанные с различными прогонами, независимы (учитывая прогоны). $r$ $x$

— Юхо Коккала
источник

(+1) Спасибо. Да, конечно, я понимаю, что уравнение 1 является формально правильным, если предполагается неявная маргинализация через . Проблема заключается в том, что позже авторы делают предсказания (уравнение 11 в статье и неявно в уравнении 3), и они, по-видимому, не маргинализируются по когда они их принимают.

r_{t + 1}

$r_{t+1}$

r_{t + 1}

$r_{t+1}$

— Lacerbi

Ой. Кажется, тогда я неправильно понял вопрос - я должен удалить это? Вы можете уточнить вопрос, в настоящее время это звучит так (1) как-то неправильно (вместо, возможно, бесполезно)

— Юхо Коккала

Пожалуйста, сохраните этот ответ, который является ценным. Моя ошибка в том, что я не был достаточно понятен в своем первоначальном посте. Я попытался прояснить свой вопрос благодаря вашим комментариям и таким образом, что этот ответ все еще имеет смысл.

— Lacerbi