Что такое байесовское глубокое обучение?

13

Что такое байесовское глубокое обучение и как оно относится к традиционной байесовской статистике и традиционному глубокому обучению?

Каковы основные понятия и математика? Могу ли я сказать, что это просто непараметрическая байесовская статистика? Каковы его основные работы, а также его текущие основные разработки и приложения?

PS: Bayesian Deep Learning привлекает большое внимание, см. Семинар NIPS.

bayesian deep-learning

— statslearner
источник

10

Уйдя со своей ссылки на семинар по NIPS, Йи Уай Тей выступил с программной речью в NIPS по Bayesian Deep Learning (видео: https://www.youtube.com/watch?v=LVBvJsTr3rg , слайды: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Я думаю, что в какой-то момент в речи Те резюмировал байесовское глубокое обучение как применение байесовской структуры к идеям глубокого обучения (например, апостериорное обучение над весами нейронной сети) и глубокое байесовское обучение как применение идей глубокого обучения к Байесовский каркас (например, глубокие гауссовские процессы или глубокие экспоненциальные семейства). Конечно, есть идеи, которые находятся между двумя понятиями, например, вариационные автоэнкодеры. Когда большинство людей говорят о байесовском глубоком обучении, они обычно имеют в виду одно из двух, и это отражено в принятых документах на семинаре, который вы связали (вместе с семинаром в предыдущем году). В то время как идеи восходят к работе Нила по байесовскому обучению нейронных сетей в 90-х годах (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), и с тех пор была проделана большая работа, вероятно, одной из наиболее важных недавних статей будет оригинальная вариационная бумага для автоматического кодирования ( https://arxiv.org/pdf/1312.6114.pdf ).

— aleshing
источник

10

Я хотел бы предложить, чтобы вы сначала получили хорошее представление о том, что лежит в основе вероятностной модели в традиционной байесовской нейронной сети. Далее некоторые термины будут написаны жирным шрифтом . Пожалуйста, попробуйте найти эти термины, чтобы найти более подробную информацию. Это просто базовый обзор. Я надеюсь, что это помогает.

Давайте рассмотрим случай регрессии в нейронных сетях с прямой связью и установим некоторые обозначения.

Пусть обозначают значения предикторов на входном слое , Значения единиц во внутренних слоях будут обозначаться как для . Наконец, у нас есть выходной слой . $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

Эти веса и смещения узла в слое будем обозначать через и , соответственно, для , и . $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

Пусть будет функцией активации для модуля на слое , для и . $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

Обычно используемые функции активации - логистика , ReLU (также известная как положительная часть ) и tanh .

Теперь, для , определите функции перехода слоя в котором для . $\ell=1,\dots,L$

{грамм}^{(ℓ)} : р^{N_{ℓ - 1}} \to р^{N_{ℓ}} : (Z_{1}^{(ℓ - 1)}, ..., Z_{N_{ℓ - 1}}^{(ℓ - 1)}) \mapsto (Z_{1}^{(ℓ)}, ..., Z_{N_{ℓ}}^{(ℓ)}),

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

Z_{я}^{(ℓ)} знак равно {грамм}_{я}^{(ℓ)} (Σ_{J знак равно 1}^{N_{ℓ - 1}} {вес}_{я J}^{(ℓ)} Z_{J}^{(ℓ - 1)} + б_{я}^{(ℓ)}),

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

Обозначим множество весов и смещений всех единиц во всех слоях через , то есть наша нейронная сеть семейство функций полученное композицией функций перехода слоя: $\theta$

θ знак равно {{вес}_{я J}^{(ℓ)}, б_{я}^{(ℓ)} : ℓ знак равно 1, ..., L; я знак равно 1 ..., N_{ℓ}; J знак равно 1, ..., N_{ℓ - 1}},

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

{грамм}_{θ} знак равно {грамм}^{(L)} \circ {грамм}^{(L - 1)} \circ \dots \circ {грамм}^{(1)},

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

В приведенном выше описании нет вероятностей. Целью оригинального бизнеса нейронных сетей является подгонка функций .

«Глубокий» в Deep Learning означает существование многих внутренних слоев в рассматриваемых нейронных сетях.

Для данного обучающего набора мы стараемся свести к минимуму целевую функцию сверх . Для некоторого вектора предикторов в тестовом наборе предсказанный ответ просто , в котором является решением нашел проблему минимизации. Золотой стандарт для этой минимизации - обратное распространение, реализованное библиотекой TensorFlow с использованием средств распараллеливания, доступных в современном графическом процессоре. $\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

Σ_{я знак равно 1}^{N} | | Y_{я} - {грамм}_{θ} ({Икс}_{я}) {| |}^{2},

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ (для ваших проектов, проверьте интерфейс Keras ). Кроме того, теперь есть доступное оборудование, инкапсулирующее эти задачи ( TPU ). Поскольку нейронная сеть в целом более параметрироваться, чтобы избежать переобучения некоторой формы регуляризации добавляется в рецепт, например , суммирование хребта , как штраф целевой функции, или с использованием отсева в процессе обучения. Джеффри Хинтон (aka Deep Learning Godfather) и соавторы изобрели многие из этих вещей. Истории успеха глубокого обучения есть везде.

Вероятности были введены в картину в конце 80-х и начале 90-х годов с предложением вероятности Гаусса и простой (возможно, упрощенный) гауссовский априор, предполагающий априорную независимость всех весов и смещений в сети:

L_{Икс, Y} (θ, σ^{2}) α σ^{- N} ехр (- \frac{1}{2 σ^{2}} Σ_{я знак равно 1}^{N} | | Y_{я} - {грамм}_{θ} ({Икс}_{я}) {| |}^{2}),

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π (θ, σ^{2}) α ехр (- \frac{1}{2 σ_{0}^{2}} Σ_{ℓ знак равно 1}^{L} Σ_{я знак равно 1}^{N_{ℓ}} ({(б_{я}^{(ℓ)})}^{2} + Σ_{J знак равно 1}^{N_{ℓ - 1}} {({вес}_{я J}^{(ℓ)})}^{2})) \times π (σ^{2}),

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

Следовательно, маргинальные априоры для весов и смещений - это нормальные распределения с нулевым средним и общей дисперсией . Эту оригинальную модель соединения можно сделать гораздо более сложной, с компромиссом, заключающимся в усложнении вывода. $\sigma_0^2$

Байесовское глубокое обучение сталкивается с трудной задачей отбора проб из соответствующего апостериорного распределения. После того, как это выполнено, предсказания сделаны естественно с последующим предсказательным распределением , и неопределенности, вовлеченные в эти предсказания, полностью определены количественно. Священный Грааль в Bayesian Deep Learning - это построение эффективного и масштабируемого решения. Многие вычислительные методы были использованы в этом квесте: выборка Метрополиса-Гастингса и Гиббса , гамильтониан Монте-Карло и, совсем недавно, Вариационный вывод .

Посмотрите видео с конференций NIPS, чтобы узнать некоторые истории успеха: http://bayesiandeeplearning.org/

— Zen
источник