Интерпретация производной Радона-Никодима между вероятностными мерами?

Я видел в некоторых моментах использование производной Радона-Никодима одной вероятностной меры по отношению к другой, особенно в дивергенции Кульбака-Лейблера, где она является производной вероятностной меры модели для некоторого произвольного параметра с относительно реального параметра : $\theta$ $\theta_0$

\frac{d P_{θ}}{d P_{θ_{0}}}

$\frac {dP_\theta}{dP_{\theta_0}}$

Где это обе вероятностные меры в пространстве точек данных, обусловленные значением параметра: . $P_\theta(D)=P(D|\theta)$

Какова интерпретация такой производной Радона-Никодима в расходимости Кульбака-Лейблера или, в более общем смысле, между двумя вероятностными мерами?

— user56834
источник

Во-первых, нам не нужны вероятностные меры, только конечность. Так пусть измеримое пространство и пусть и , быть -конечной меры по . $\sigma$ $\mathcal M = (\Omega, \mathscr F)$ $\mu$ $\nu$ $\sigma$ $\mathcal M$

Теорема Радона-Никодима утверждает, что если для всех , обозначаемых через , тогда существует неотрицательная борелевская функция такая, что $\mu(A) = 0 \implies \nu(A) = 0$ $A \in \mathscr F$ $\mu \gg \nu$ $f$ для всех .

ν (A) = \int_{A} f d μ

$\nu(A) = \int_A f \,\text d\mu$

A \in F

$A \in \mathscr F$

Вот как мне нравится думать об этом. Во-первых, для любых двух мер на определим как среднее значение $\mathcal M$ $\mu \sim \nu$ . Это правильное отношение эквивалентностии мы говоримчто и являютсяэквивалентнымив этом случае. Почему это разумная эквивалентность мер? Меры - это просто функции, но их области сложно представить. А что если две обыкновенные функции обладают этим свойством, т.е. $\mu(A) = 0 \iff \nu(A) = 0$ $\mu$ $\nu$ $f, g :\mathbb R \to \mathbb R$ ? Итак, определим и заметим, что где-нибудь на носителе мы имеем , а вне носителя (так как $f(x) = 0 \iff g(x) = 0$

h (x) = {\begin{cases} f (x) / g (x) & g (x) \neq 0 \\ π^{e} & o.w. \end{cases}

$h(x) = \begin{cases} f(x) / g(x) & g(x) \neq 0 \\ \pi^e & \text{o.w.}\end{cases}$

g

$g$

g h = f

$gh = f$

g

$g$

g h = 0 \cdot π^{e} = 0 = f

$gh = 0 \cdot \pi^e = 0 = f$

f

$f$ и

share поддерживает) поэтому

позволяет нам масштабировать

. Как @whuber указывает, ключевой идеей здесь является не то, что

как - то «безопасным» делать или игнорировать, а при

, то это не имеет значения , что

делает так что мы можем просто определить его как угодно (например , быть

который не имеет особого значения здесь), и все еще работает. Также в этом случае мы можем определить аналогичную функцию

с помощью

так что

g

$g$

h

$h$

g

$g$

f

$f$

0 / 0

$0/0$

g = 0

$g = 0$

h

$h$

π^{e}

$\pi^e$

h^{'}

$h'$

g / f

$g / f$

f h^{'} = g

$fh' = g$

Далее предположим, что , но другое направление не обязательно выполняется. Это означает, что наше предыдущее определение все еще работает, но теперь не работает, так как у него будет фактическое деление на . Таким образом, мы можем перемасштабировать в через , но мы не можем пойти в другом направлении, потому что нам нужно было бы перемасштабировать что-то в нечто ненулевое. $g(x) = 0 \implies f(x) = 0$ $h$ $h'$ $0$ $g$ $f$ $gh = f$ $0$

Теперь давайте вернемся к и и обозначим нашу RND через . Если , то это интуитивно означает, что одно может быть перераспределено в другое, и наоборот. Но, как правило, мы хотим пойти в этом направлении только в одном направлении (т. Е. Перемасштабировать хорошую меру, такую как мера Лебега, в более абстрактную меру), поэтому нам нужно только чтобы делать полезные вещи. Этот масштаб является сердцем RND. $\mu$ $\nu$ $f$ $\mu \sim \nu$ $\mu \gg \nu$

Возвращаясь к точке @ whuber в комментариях, есть дополнительная тонкость , почему это безопасно игнорировать вопрос . Это потому, что с мерами мы всегда определяем вещи вплоть до наборов меры поэтому на любом множестве с мы можем просто заставить нашу RND принимать любое значение, скажем, . Так что это не то, что искробезопасный, а где - нибудь , что мы имеем есть множество меры WRT $0/0$ $0$ $A$ $\mu(A) = 0$ $1$ $0/0$ $0/0$ $0$ $\mu$ так что мы можем просто определить наш RND, чтобы он был чем-то хорошим, не влияя ни на что.

В качестве примера предположим, что для некоторого . Тогда $k \cdot \mu = \nu$ $k > 0$ поэтому мы имеем, что

ν (A) знак равно \int_{A} d ν знак равно \int_{A} К d μ

$\nu(A) = \int_A \,\text d\nu = \int_A k \,\text d \mu$

- RND (это может быть более формально обосновано теоремой об изменении мер). Это хорошо, потому что мы точно восстановили коэффициент масштабирования.

f (x) = k = \frac{d ν}{d μ}

$f(x) = k = \frac{\text d\nu}{\text d\mu}$

Вот второй пример, чтобы подчеркнуть, как изменение RND на наборах меры не влияет на них. Пусть , то есть это стандартный нормальный PDF плюс если вход рациональный, и пусть будет RV с этой плотностью. Это означает, что $0$ $f(x) = \varphi(x) + 1_{\mathbb Q}(x)$ $1$ $X$

п (Икс \in A) знак равно \int_{A} (φ + 1_{Q}) d λ

$P(X \in A) = \int_A \left(\varphi + 1_{\mathbb Q}\right) \,\text d\lambda$

так что на самом деле

все еще является стандартным гауссовым RV. Это никак не повлияло на распределение для изменения

на

потому что это набор мер

относительно

знак равно \int_{A} φ d λ + λ (Q) знак равно \int_{A} φ d λ

$= \int_A \varphi \,\text d\lambda + \lambda\left(\mathbb Q \right) =\int_A \varphi \,\text d\lambda$

X

$X$

X

$X$

Q

$\mathbb Q$

0

$0$

λ

$\lambda$

$X \sim \text{Pois}(\eta)$ $Y \sim \text{Bin}(n, p)$ $P_X$ $P_Y$ $c$ $c$ $c(A) = 0 \iff A = \emptyset$

\frac{d п_{Y}}{d п_{Икс}} знак равно \frac{d п_{Y} / d с}{d п_{Икс} / d с} знак равно \frac{е_{Y}}{е_{Икс}}

$\frac{\text dP_Y}{\text dP_X} = \frac{\text dP_Y / \text dc}{\text dP_X / \text dc} = \frac{f_Y}{f_X}$

п_{Y} (A) знак равно \int_{A} d п_{Y}

$P_Y(A) = \int_A \,\text dP_Y$

знак равно \int_{A} \frac{d п_{Y}}{d п_{Икс}} d п_{Икс} знак равно \int_{A} \frac{d п_{Y}}{d п_{Икс}} \frac{d п_{X}}{d с} d с

$= \int_A \frac{\text dP_Y}{\text dP_X}\,\text dP_X = \int_A \frac{\text dP_Y}{\text dP_X}\frac{\text dP_X}{\text dc}\,\text dc$

знак равно \underset{Y \in A}{Σ} \frac{d п_{Y}}{d п_{Икс}} (Y) \frac{d п_{Икс}}{d с} (Y) знак равно \underset{Y \in A}{Σ} \frac{е_{Y} (Y)}{е_{Икс} (Y)} е_{Икс} (Y) знак равно \underset{Y \in A}{Σ} е_{Y} (Y),

$= \sum_{y \in A} \frac{\text dP_Y}{\text dP_X}(y)\frac{\text dP_X}{\text dc}(y) = \sum_{y \in A} \frac{f_Y(y)}{f_X(y)}f_X(y) = \sum_{y \in A} f_Y(y).$

$P(X = n) > 0$ $n$ $Y$

$P \ll Q$ $\mu$ $\frac{\text dP}{\text dQ} = \frac{\text dP / \text d\mu}{\text dQ / \text d\mu} := p / q$

— JLD
источник

0 / 0

$0/0$

0 / 0

$0/0$

@whuber большое спасибо за комментарий, который действительно помогает. Я пытался обновить, чтобы обратиться к этому

— JDD