что делает нейронные сети нелинейной классификационной моделью?

18

Я пытаюсь понять математический смысл нелинейных классификационных моделей:

Я только что прочитал статью о том, что нейронные сети являются нелинейной классификационной моделью.

Но я просто понимаю, что:

Первый слой:

$h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2}$

$h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2}$

Последующий слой

$y=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y}$

Можно упростить до

$=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y}$

$=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y})$

Двухслойная нейронная сеть - это простая линейная регрессия.

$=b^′+x_1∗W_1^′+x_2∗W_2^′$

Это может быть показано для любого количества слоев, поскольку линейная комбинация любого количества весов снова является линейной.

Что на самом деле делает нейронную сеть нелинейной классификационной моделью?
Как функция активации повлияет на нелинейность модели?
Можете ли вы объяснить мне?

neural-networks nonlinear-regression nonlinear

— Альваро Жоао
источник

18

Я думаю, что вы забыли функцию активации в узлах в нейронной сети, которая является нелинейной и сделает всю модель нелинейной.

В вашей формуле не совсем правильно, где,

h_{1} \neq w_{1} x_{1} + w_{2} x_{2}

$h_1 \neq w_1x_1+w_2x_2$

но

h_{1} = sigmoid (w_{1} x_{1} + w_{2} x_{2})

$h_1 = \text{sigmoid}(w_1x_1+w_2x_2)$

где сигмовидная функция, подобная этой, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

Давайте используем числовой пример, чтобы объяснить влияние сигмоидальной функции. Предположим, у вас есть затем . С другой стороны, предположим, что у вас есть , и он почти такой же, как , который является нелинейным. $w_1x_1+w_2x_2=4$ $\text{sigmoid}(4)=0.99$ $w_1x_1+w_2x_2=4000$ $\text{sigmoid}(4000)=1$ $\text{sigmoid}(4)$

Кроме того, я думаю, что слайд 14 в этом уроке может показать, где именно вы ошиблись. Для пожалуйста, не отупут не -7.65, а $H_1$ $\text{sigmoid}(-7.65)$

— Haitao Du
источник

1

Как функция активации повлияет на нелинейность модели? Можете ли вы объяснить мне?

— Альваро Жоао

3

Вы правы, что несколько линейных слоев могут быть эквивалентны одному линейному слою. Как уже говорилось в других ответах, нелинейная функция активации допускает нелинейную классификацию. Сказать, что классификатор является нелинейным, означает, что он имеет нелинейную границу решения. Граница решения - это поверхность, которая разделяет классы; классификатор будет предсказывать один класс для всех точек на одной стороне границы решения, а другой класс для всех точек на другой стороне.

Рассмотрим общую ситуацию: выполнение бинарной классификации с сетью, содержащей несколько слоев нелинейных скрытых единиц и единицу вывода с сигмоидальной функцией активации. - вывод, - вектор активаций для последнего скрытого слоя, - вектор их весов на выходной единице, а - смещение выходной единицы. Выход: $y$ $h$ $w$ $b$

y = σ (h w + b)

$y = \sigma(hw + b)$

где - это логистическая сигмоидальная функция. Выход интерпретируется как вероятность того, что класс равен . Прогнозируемый класс : $\sigma$ $1$ $c$

c = {\begin{array}{cl} 0 & y \leq 0.5 \\ 1 & y > 0.5 \end{array}

$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right .$

Давайте рассмотрим правило классификации в отношении активаций скрытых юнитов. Мы видим, что активация скрытого блока проецируется на линию . Правило назначения класса - это функция от , которая монотонно связана с проекцией вдоль линии. Следовательно, правило классификации эквивалентно определению, является ли проекция вдоль линии меньше или больше некоторого порогового значения (в этом случае пороговое значение задается отрицательным значением смещения). Это означает, что граница принятия решения является гиперплоскостью, которая ортогональна линии и пересекает линию в точке, соответствующей этому порогу. $hW + b$ $y$

Ранее я говорил, что граница принятия решения является нелинейной, но гиперплоскость - это само определение линейной границы. Но мы рассматривали границу как функцию от скрытых единиц перед выходом. Активации скрытых элементов являются нелинейной функцией исходных входов, что связано с предыдущими скрытыми слоями и их нелинейными функциями активации. Один из способов думать о сети состоит в том, что она отображает данные нелинейно в некотором пространстве признаков. Координаты в этом пространстве задаются активациями последних скрытых юнитов. Затем сеть выполняет линейную классификацию в этом пространстве (в данном случае логистическая регрессия). Мы также можем думать о границе решения как о функции исходных данных. Эта функция будет нелинейной, как следствие нелинейного сопоставления входов с активациями скрытых единиц.

В этом сообщении блога показаны некоторые красивые рисунки и анимации этого процесса.

— user20160
источник

1

Нелинейность исходит от функции активации сигмоида 1 / (1 + e ^ x), где x - линейная комбинация предикторов и весов, на которые вы ссылались в своем вопросе.

Кстати, границы этой активации равны нулю и единице, потому что либо знаменатель становится настолько большим, что дробь приближается к нулю, либо e ^ x становится настолько малым, что дробь приближается к 1/1.

— Райан Зотти
источник