Почему среднеквадратическая ошибка является перекрестной энтропией между эмпирическим распределением и гауссовой моделью?

28

В 5.5 « Глубокое обучение» (Йен Гудфеллоу, Йошуа Бенжио и Аарон Курвилль) говорится, что

Любая потеря, состоящая из отрицательного логарифмического правдоподобия, является кросс-энтропией между эмпирическим распределением, определенным обучающим набором, и распределением вероятности, определенным моделью. Например, среднеквадратическая ошибка - это кросс-энтропия между эмпирическим распределением и гауссовой моделью.

Я не могу понять, почему они эквивалентны, и авторы не расширяют суть.

machine-learning normal-distribution cross-entropy

— Муфей Ли
источник

32

Пусть данные будут $\mathbf{x}=(x_1, \ldots, x_n)$ . Написать $F(\mathbf{x})$ для эмпирического распределения. По определению для любой функции $f$ ,

E_{F (x)} [f (X)] = \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) .

$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$

Пусть модель имеет плотность где определена на носителе модели. Кросс-энтропии из и определяется как $M$ $e^{f(x)}$ $f$ $F(\mathbf{x})$ $M$

\begin{matrix} (1) & H (F (x), M) = - E_{F (x)} [\log (e^{f (X)}] = - E_{F (Икс)} [е (Икс)] знак равно - \frac{1}{N} Σ_{я знак равно 1}^{N} е ({Икс}_{я}), \end{matrix}

$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$

Предполагая, что - простая случайная выборка, ее отрицательная логарифмическая вероятность $x$

\begin{matrix} (2) & - \log (L (x)) = - \log \prod_{i = 1}^{n} e^{f (x_{i})} = - \sum_{i = 1}^{n} f (x_{i}) \end{matrix}

$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$

в силу свойств логарифмов (они переводят продукты в суммы). Выражение является константным кратным выражением . Поскольку функции потерь используются в статистике только путем их сравнения, нет разницы, что одна (положительная) константа умножается на другую. Именно в этом смысле отрицательная логарифмическая вероятность "является" кросс-энтропией в цитате. $(2)$ $n$ $(1)$

Требуется немного больше воображения, чтобы оправдать второе утверждение цитаты. Связь с квадратом ошибки очевидна, потому что для «гауссовой модели», которая предсказывает значения в точках , значение в любой такой точке равно $p(x)$ $x$ $f$

f (x; p, σ) = - \frac{1}{2} (\log (2 π σ^{2}) + \frac{(x - p (x))^{2}}{σ^{2}}),

$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$

которая является квадратом ошибки но масштабируется на и сдвигается функцией . Один из способов сделать цитату правильной - предположить, что она не учитывает часть "модели" - должен определяться как-то независимо от данных. В этом случае различия между среднеквадратическими ошибками пропорциональны различиям между кросс-энтропиями или логарифмическими правдоподобиями, что делает все три эквивалентными для подбора моделей. $(x-p(x))^2$ $1/(2\sigma^2)$ $\sigma$ $\sigma$ $\sigma$

(Обычно, однако, подходит как часть процесса моделирования, и в этом случае цитата будет не совсем правильной.) $\sigma = \sigma(x)$

— Whuber
источник

1

+1 с двумя предложениями - можно использовать вместо чтобы избежать путаницы с . Во-вторых, большинство оценок будут . Когда вы подключаете это и добавляете это, вы получаете . Аналогично формуле типа AIC ...

g ()

$g ()$

f ()

$f ()$

F ()

$F ()$

σ^{2}

$\sigma^2$

k \sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}

$k\sum_{i=1}^n \left (x_i - p (x_i)\right)^2$

- \frac{1}{2} \log [\sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}] + h (k)

$-\frac {1}{2}\log\left [\sum_{i=1}^n \left (x_i - p (x_i)\right)^2\right] +h(k)$

— вероятностная

@probabilityislogic Я выбираю пару и , потому что они действительно представляют собой тесно связанную с ней величину.

F

$F$

f

$f$

— whuber

Привет, я думаю, что это применимо только к линейному распределению. Я думаю, что в задачах нелинейного распределения мы все еще можем использовать MSE как функцию стоимости, верно?

— Лев Лай

5

Для читателей книги Deep Learning я хотел бы добавить к превосходному принятому ответу, что авторы подробно объясняют свое утверждение в разделе 5.5.1, а именно : Пример: линейная регрессия как максимальное правдоподобие .

Там они перечисляют точно ограничение, упомянутое в принятом ответе:

$p(y | x) = \mathcal{N}\big(y; \hat{y}(x; w), \sigma^2\big)$ $\hat{y}(x; w)$ $\sigma^2$

$p(y|x)$

— Килиан Батцнер
источник