что делает нейронные сети нелинейной классификационной моделью?


18

Я пытаюсь понять математический смысл нелинейных классификационных моделей:

Я только что прочитал статью о том, что нейронные сети являются нелинейной классификационной моделью.

Но я просто понимаю, что:

введите описание изображения здесь

Первый слой:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

Последующий слой

y=bwby+h1wh1y+h2wh2y

Можно упростить до

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

Двухслойная нейронная сеть - это простая линейная регрессия.

=b+x1W1+x2W2

Это может быть показано для любого количества слоев, поскольку линейная комбинация любого количества весов снова является линейной.

Что на самом деле делает нейронную сеть нелинейной классификационной моделью?
Как функция активации повлияет на нелинейность модели?
Можете ли вы объяснить мне?

Ответы:


18

Я думаю, что вы забыли функцию активации в узлах в нейронной сети, которая является нелинейной и сделает всю модель нелинейной.

В вашей формуле не совсем правильно, где,

h1w1x1+w2x2

но

h1=sigmoid(w1x1+w2x2)

где сигмовидная функция, подобная этой,sigmoid(x)=11+ex

введите описание изображения здесь

Давайте используем числовой пример, чтобы объяснить влияние сигмоидальной функции. Предположим, у вас есть затем . С другой стороны, предположим, что у вас есть , и он почти такой же, как , который является нелинейным.w1x1+w2x2=4sigmoid(4)=0.99w1x1+w2x2=4000sigmoid(4000)=1sigmoid(4)


Кроме того, я думаю, что слайд 14 в этом уроке может показать, где именно вы ошиблись. Для пожалуйста, не отупут не -7.65, а сигмовидная ( - 7,65 )H1sigmoid(7.65)

введите описание изображения здесь


1
Как функция активации повлияет на нелинейность модели? Можете ли вы объяснить мне?
Альваро Жоао

3

Вы правы, что несколько линейных слоев могут быть эквивалентны одному линейному слою. Как уже говорилось в других ответах, нелинейная функция активации допускает нелинейную классификацию. Сказать, что классификатор является нелинейным, означает, что он имеет нелинейную границу решения. Граница решения - это поверхность, которая разделяет классы; классификатор будет предсказывать один класс для всех точек на одной стороне границы решения, а другой класс для всех точек на другой стороне.

Рассмотрим общую ситуацию: выполнение бинарной классификации с сетью, содержащей несколько слоев нелинейных скрытых единиц и единицу вывода с сигмоидальной функцией активации. - вывод, - вектор активаций для последнего скрытого слоя, - вектор их весов на выходной единице, а - смещение выходной единицы. Выход:yhwb

y=σ(hw+b)

где - это логистическая сигмоидальная функция. Выход интерпретируется как вероятность того, что класс равен . Прогнозируемый класс :σ1c

c={0y0.51y>0.5

Давайте рассмотрим правило классификации в отношении активаций скрытых юнитов. Мы видим, что активация скрытого блока проецируется на линию . Правило назначения класса - это функция от , которая монотонно связана с проекцией вдоль линии. Следовательно, правило классификации эквивалентно определению, является ли проекция вдоль линии меньше или больше некоторого порогового значения (в этом случае пороговое значение задается отрицательным значением смещения). Это означает, что граница принятия решения является гиперплоскостью, которая ортогональна линии и пересекает линию в точке, соответствующей этому порогу.уhW+by

Ранее я говорил, что граница принятия решения является нелинейной, но гиперплоскость - это само определение линейной границы. Но мы рассматривали границу как функцию от скрытых единиц перед выходом. Активации скрытых элементов являются нелинейной функцией исходных входов, что связано с предыдущими скрытыми слоями и их нелинейными функциями активации. Один из способов думать о сети состоит в том, что она отображает данные нелинейно в некотором пространстве признаков. Координаты в этом пространстве задаются активациями последних скрытых юнитов. Затем сеть выполняет линейную классификацию в этом пространстве (в данном случае логистическая регрессия). Мы также можем думать о границе решения как о функции исходных данных. Эта функция будет нелинейной, как следствие нелинейного сопоставления входов с активациями скрытых единиц.

В этом сообщении блога показаны некоторые красивые рисунки и анимации этого процесса.


1

Нелинейность исходит от функции активации сигмоида 1 / (1 + e ^ x), где x - линейная комбинация предикторов и весов, на которые вы ссылались в своем вопросе.

Кстати, границы этой активации равны нулю и единице, потому что либо знаменатель становится настолько большим, что дробь приближается к нулю, либо e ^ x становится настолько малым, что дробь приближается к 1/1.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.