Полный список функций активации в нейронных сетях с плюсами / минусами


95

Существуют ли какие-либо справочные документы, в которых содержится полный список функций активации в нейронных сетях вместе с их плюсами / минусами (и в идеале некоторые ссылки на публикации, где они были успешными или не очень успешными)?


Я не знаю достаточно о ANN, но если функции активации существенно не различаются по форме, их будет очень сложно отличить друг от друга. Для обсуждения аналогичной ситуации вы можете увидеть мой ответ здесь: Разница между логит-моделями и пробит-моделями .
gung - Восстановить Монику

1
нет, это имеет большое значение.
Вильями,

en.wikipedia.org/wiki/Activation_function - хороший ресурс; Вы можете использовать многие другие, в том числе sin(x), см. openreview.net/pdf?id=Sks3zF9eg .
Петр Мигдаль

Ответы:


144

Я начну составлять список тех, кого я выучил до сих пор. Как сказал @marcodena, плюсы и минусы сложнее, потому что в основном это просто эвристика, извлеченная из этих вещей, но я думаю, что, по крайней мере, у меня есть список того, чем они не могут навредить.

Во-первых, я определю нотацию явно, чтобы не было путаницы:

нотация

Это обозначение из книги Нильсена .

Нейронная сеть с прямой связью - это множество слоев нейронов, соединенных вместе. Он принимает входные данные, затем этот вход «просачивается» через сеть, и нейронная сеть возвращает выходной вектор.

Более формально, вызов активации ( так называемым выходом) из нейрона в слое, где является элементом входного вектора. j t h i t h a 1 j j t hajijthithaj1jth

Затем мы можем связать вход следующего слоя с его предыдущим с помощью следующего отношения:

aji=σ(k(wjkiaki1)+bji)

где

  • σ - это функция активации,
  • k t h ( i - 1 ) t h j t h i t hwjki - это вес от нейрона в слое до нейрона в слое,kth(i1)thjthith
  • J т ч я т чbji - это смещение нейрона в слое, иjthith
  • J т ч я т чaji представляет значение активации нейрона в слое.jthith

Иногда мы пишем чтобы представить , другими словами, значение активации нейрона перед применением функции активации ,k ( w i j ka i - 1 k ) + b i jzjik(wjkiaki1)+bji

введите описание изображения здесь

Для более кратких обозначений мы можем написать

ai=σ(wi×ai1+bi)

Чтобы использовать эту формулу для вычисления вывода сети прямой связи для некоторого ввода , установите , а затем вычислите , где - количество слоев.a 1 = I a 2 , a 3 , , a m mIRna1=Ia2,a3,,amm

Функции активации

(в дальнейшем мы будем писать вместо для удобства чтения)e xexp(x)ex

тождественность

Также известен как линейная функция активации.

aji=σ(zji)=zji

тождественность

шаг

aji=σ(zji)={0if zji<01if zji>0

шаг

Кусочно-линейный

Выберите некоторые и , что является нашим «диапазоном». Все, что меньше этого диапазона, будет 0, а все, что больше этого диапазона, будет 1. Все остальное линейно интерполируется между. Формально:xminxmax

aji=σ(zji)={0if zji<xminmzji+bif xminzjixmax1if zji>xmax

где

m=1xmaxxmin

а также

b=mxmin=1mxmax

Кусочно-линейный

сигмоид

aji=σ(zji)=11+exp(zji)

сигмоид

Дополнительный лог-лог

aji=σ(zji)=1exp(exp(zji))

Дополнительный лог-лог

биполярный

aji=σ(zji)={1if zji<0   1if zji>0

биполярный

Биполярный сигмоид

aji=σ(zji)=1exp(zji)1+exp(zji)
Биполярный сигмоид

Tanh

aji=σ(zji)=tanh(zji)

Tanh

LeCun's Tanh

Смотрите Эффективный Backprop .

aji=σ(zji)=1.7159tanh(23zji)

LeCun's Tanh

Чешуйчатый:

Чешуйчатый Тан ЛеКуна

Hard Tanh

aji=σ(zji)=max(1,min(1,zji))

Hard Tanh

абсолют

aji=σ(zji)=∣zji

абсолют

выпрямитель

Также известен как выпрямленная линейная единица (ReLU), Макс или функция линейного изменения .

aji=σ(zji)=max(0,zji)

выпрямитель

Модификации ReLU

Это некоторые функции активации, с которыми я играл, которые, по загадочным причинам, имеют очень хорошую производительность для MNIST.

aji=σ(zji)=max(0,zji)+cos(zji)

ReLU cos

Чешуйчатый:

ReLU - масштабируется

aji=σ(zji)=max(0,zji)+sin(zji)

Релу грех

Чешуйчатый:

Релу грешил

Гладкий выпрямитель

Также известен как Smooth Recified Linear Unit, Smooth Max или Soft plus

aji=σ(zji)=log(1+exp(zji))

Гладкий выпрямитель

Logit

aji=σ(zji)=log(zji(1zji))

Logit

Чешуйчатый:

Logit Scaled

единица вероятности

aji=σ(zji)=2erf1(2zji1)
.

Где - это функция ошибок . Это не может быть описано с помощью элементарных функций, но вы можете найти способы аппроксимации обратного на этой странице Википедии и здесь .erf

Альтернативно, это может быть выражено как

aji=σ(zji)=ϕ(zji)
.

Где - функция накопительного распределения (CDF). Смотрите здесь для способов приближения этого.ϕ

единица вероятности

Чешуйчатый:

Probit Scaled

Косинус

Смотрите Случайные Кухонные Раковины .

aji=σ(zji)=cos(zji)
.

Косинус

Софтмакс

Также известный как нормализованная экспонента.

aji=exp(zji)kexp(zki)

Это немного странно, потому что выход одного нейрона зависит от других нейронов в этом слое. Это также становится трудным для вычисления, поскольку может быть очень высоким значением, и в этом случае , вероятно, будет переполнен. Аналогично, если - очень низкое значение, оно опустится и станет .zjiexp(zji)zji0

Чтобы бороться с этим, вместо этого мы будем вычислять . Это дает нам:log(aji)

log(aji)=log(exp(zji)kexp(zki))

log(aji)=zjilog(kexp(zki))

Здесь нам нужно использовать трюк log-sum-exp :

Допустим, мы вычисляем:

log(e2+e9+e11+e7+e2+e5)

Для удобства мы сначала отсортируем наши экспоненты по величине:

log(e11+e9+e5+e2+e2+e7)

Тогда, поскольку является нашим самым высоким, мы умножаем на :e11e11e11

log(e11e11(e11+e9+e5+e2+e2+e7))

log(1e11(e0+e2+e6+e9+e13+e18))

log(e11(e0+e2+e6+e9+e13+e18))

log(e11)+log(e0+e2+e6+e9+e13+e18)

11+log(e0+e2+e6+e9+e13+e18)

Затем мы можем вычислить выражение справа и взять его журнал. Это нормально, потому что эта сумма очень мала по отношению к , поэтому любое снижение значения до 0 не было бы достаточно значительным, чтобы все равно что-то изменить. Переполнение не может произойти в выражении справа, потому что мы гарантируем, что после умножения на все степени будут .log(e11)e110

Формально мы называем . Затем:m=max(z1i,z2i,z3i,...)

log(kexp(zki))=m+log(kexp(zkim))

Наша функция softmax становится:

aji=exp(log(aji))=exp(zjimlog(kexp(zkim)))

Также в качестве идентификатора производная функции softmax имеет вид:

dσ(zji)dzji=σ(zji)=σ(zji)(1σ(zji))

Использовать полностью

Этот тоже немного хитрый. По сути, идея заключается в том, что мы разбиваем каждый нейрон в нашем слое maxout на множество субнейронов, каждый из которых имеет свои веса и смещения. Затем входные данные для нейрона поступают вместо каждого из его субнейронов, и каждый субнейрон просто выводит свои (без применения какой-либо функции активации). Тогда этого нейрона является максимумом всех выходов его субнейрона.zaji

Формально, в одном нейроне, скажем, у нас есть субнейронов. затемn

aji=maxk[1,n]sjki

где

sjki=ai1wjki+bjki

( является точечным произведением )

Чтобы помочь нам подумать об этом, рассмотрим матрицу весов для слоя нейронной сети, которая использует, скажем, функцию активации сигмоида. является 2D матрицей, где каждый столбец является вектором для нейрона содержащим вес для каждого нейрона в предыдущем слое .WiithWiWjiji1

Если у нас будут субнейроны, нам понадобится двумерная весовая матрица для каждого нейрона, поскольку каждому субнейрону понадобится вектор, содержащий вес для каждого нейрона в предыдущем слое. Это означает, что теперь является трехмерной весовой матрицей, где каждый является двумерной весовой матрицей для одного нейрона . И тогда - это вектор для субнейрона в нейроне который содержит вес для каждого нейрона в предыдущем слое .WiWjijWjkikji1

Аналогично, в нейронной сети, которая снова использует, скажем, сигмовидную функцию активации, является вектором со смещением для каждого нейрона в слое .bibjiji

Чтобы сделать это с субнейронами, нам нужна двумерная матрица смещения для каждого слоя , где - вектор со смещением для каждого субнейрона в нейрон.biibjibjkikjth

Имея весовую матрицу и вектор смещения для каждого нейрона, становится очень понятным вышеприведенное выражение, оно просто применяет веса каждого субнейрона к выходам из слой , затем применяя их смещения и беря их максимум.wjibjiwjkiai1i1bjki

Радиальные базисные функциональные сети

Радиальные базовые функциональные сети являются модификацией нейронных сетей с прямой связью, где вместо использования

aji=σ(k(wjkiaki1)+bji)

у нас есть один вес на узел в предыдущем слое (как обычно), а также один средний вектор и один вектор стандартного отклонения для каждого узла в предыдущий слой. k μ i j k σ i j kwjkikμjkiσjki

Затем мы вызываем нашу функцию активации чтобы не путать ее с векторами стандартного отклонения . Теперь, чтобы вычислить нам сначала нужно вычислить один для каждого узла в предыдущем слое. Одним из вариантов является использование евклидова расстояния:σ i j k a i j z i j kρσjkiajizjki

zjki=(ai1μjki=(ai1μjki)2

Где - это элемент . Этот не использует . В качестве альтернативы есть расстояние Махаланобиса, которое предположительно работает лучше:μjkithμjkiσjki

zjki=(ai1μjki)TΣjki(ai1μjki)

где - ковариационная матрица , определяемая как:Σjki

Σjki=diag(σjki)

Другими словами, - это диагональная матрица с качестве ее диагональных элементов. Мы определяем и как векторы столбцов, потому что это обозначение, которое обычно используется.Σjkiσjkiai1μjki

Они на самом деле просто говорят, что расстояние Махаланобиса определяется как

zjki=(ai1μjki)2σjki

Где - это элемент . Обратите внимание, что всегда должен быть положительным, но это типичное требование для стандартного отклонения, так что это не так уж удивительно.σjkithσjkiσjki

При желании расстояние Махаланобиса является достаточно общим, чтобы ковариационная матрица могла быть определена как другие матрицы. Например, если ковариационная матрица является единичной матрицей, наше расстояние Махаланобиса уменьшается до евклидова расстояния. довольно распространен и известен как нормализованное евклидово расстояние .ΣjkiΣjki=diag(σjki)

В любом случае, когда наша функция расстояния выбрана, мы можем вычислить черезaji

aji=kwjkiρ(zjki)

В этих сетях они выбирают умножение на вес после применения функции активации по причинам.

Здесь описывается, как создать многослойную сеть с радиальной базисной функцией, однако обычно существует только один из этих нейронов, и его выход является выходом сети. Он нарисован как несколько нейронов, потому что каждый средний вектор и каждый вектор стандартного отклонения этого одиночного нейрона считается одним "нейроном", а затем после всех этих выходов появляется другой слой это берет сумму тех вычисленных значений, умноженных на веса, точно так же как выше. Разделение его на два слоя с «суммирующим» вектором в конце кажется мне странным, но это то, что они делают.μjkiσjkiaji

Также смотрите здесь .

Функция радиальной основы Функции активации сети

Gaussian

ρ(zjki)=exp(12(zjki)2)

Gaussian

Multiquadratic

Выберите точку . Затем мы вычисляем расстояние от до :(x,y)(zji,0)(x,y)

ρ(zjki)=(zjkix)2+y2

Это из Википедии . Он не ограничен и может иметь любое положительное значение, хотя мне интересно, есть ли способ его нормализовать.

Когда , это эквивалентно абсолютному (с горизонтальным смещением ).y=0x

Multiquadratic

Обратное мультиквадратичное

То же, что квадратичный, за исключением перевернутого:

ρ(zjki)=1(zjkix)2+y2

Обратное мультиквадратичное

* Графика из графиков intmath с использованием SVG .


12
Добро пожаловать в резюме. +6 это сказочно информативно. Я надеюсь, что мы увидим больше в будущем.
gung - Восстановить Монику

1
есть также гладкая выпрямленная линейная функция вида и пробит. log(1+exp(x))
Память

Хорошо, я думаю, что я добавил Logit, Probit и Complementary log-log, однако у меня нет глубокого понимания этих тем, поэтому я, возможно, неправильно понял их письменную форму. Это верно?
Филиллида

3
Это была бы интересная статья с хорошим списком ссылок. Например, arxiv.org/abs/1505.03654 . Не стесняйтесь связаться со мной, если вы решили написать статью и хотите другие ссылки.
Хунафу

9
кто-то должен обновить это с помощью Elu, Leaky ReLU, PReLU и RReLU.
Вилиами

24

Один такой список, хотя и не очень исчерпывающий: http://cs231n.github.io/neural-networks-1/

Обычно используемые функции активации

Каждая функция активации (или нелинейность ) принимает одно число и выполняет с ним определенную фиксированную математическую операцию. Есть несколько функций активации, с которыми вы можете столкнуться на практике:

введите описание изображения здесьвведите описание изображения здесь

Слева: нелинейность сигмоида сжимает действительные числа в диапазоне между [0,1] Справа: нелинейность Танга сжимает действительные числа в диапазоне между [-1,1].

Сигмовидной. Нелинейность сигмоида имеет математическую форму и показана на рисунке выше слева. Как упоминалось в предыдущем разделе, он принимает действительное число и «сдавливает» его в диапазоне от 0 до 1. В частности, большие отрицательные числа становятся 0, а большие положительные числа становятся 1. Исторически сиггоидная функция часто использовалась поскольку он имеет хорошую интерпретацию как скорость стрельбы нейрона: от полного отсутствия (0) до полностью насыщенного срабатывания на предполагаемой максимальной частоте (1). На практике нелинейность сигмовидной формы в последнее время утратила популярность и редко используется. У него есть два основных недостатка:σ(x)=1/(1+ex)

  • Сигмоиды насыщают и убивают градиенты . Очень нежелательное свойство сигмовидного нейрона заключается в том, что, когда активация нейрона насыщается в хвосте 0 или 1, градиент в этих областях почти равен нулю. Напомним, что во время обратного распространения этот (локальный) градиент будет умножен на градиент выходных данных этих ворот для всей цели. Поэтому, если локальный градиент очень мал, он будет эффективно «убивать» градиент, и почти никакой сигнал не будет проходить через нейрон до его весов и рекурсивно к его данным. Кроме того, нужно соблюдать особую осторожность при инициализации веса сигмовидных нейронов, чтобы предотвратить насыщение. Например, если начальные веса слишком велики, то большинство нейронов станет насыщенным, и сеть едва научится.
  • Сигмоидальные выходы не центрированы по нулю . Это нежелательно, поскольку нейроны на более поздних уровнях обработки в нейронной сети (подробнее об этом в ближайшее время) будут получать данные, которые не центрированы по нулю. Это влияет на динамику во время градиентного спуска, потому что, если данные, поступающие в нейрон, всегда положительны (например, поэлементно в )), то градиент весов при обратном распространении станет либо все быть положительными или отрицательными (в зависимости от градиента всего выражения x>0f=wTx+bwf). Это может привести к нежелательной зигзагообразной динамике в градиентных обновлениях для весов. Однако обратите внимание, что после добавления этих градиентов в пакет данных окончательное обновление весов может иметь переменные знаки, что несколько смягчает эту проблему. Следовательно, это неудобство, но оно имеет менее серьезные последствия по сравнению с вышеуказанной проблемой насыщенной активации.

Тань. Нелинейность tanh показана на изображении справа вверху. Он сдавливает вещественное число в диапазон [-1, 1]. Как и сигмовидный нейрон, его активации насыщаются, но в отличие от сигмовидного нейрона его выход центрирован на ноль. Следовательно, на практике нелинейная сила всегда предпочтительнее сигмовидной нелинейности. Также обратите внимание, что tanh нейрон - это просто масштабированный сигмовидный нейрон, в частности, имеет место следующее: .tanh(x)=2σ(2x)1

введите описание изображения здесьвведите описание изображения здесь

Слева: функция активации выпрямленной линейной единицы (ReLU), которая равна нулю при x <0 и затем линейна с наклоном 1 при x> 0. Справа: график из Крижевского и соавт. (pdf) документ, показывающий 6-кратное улучшение сходимости с единицей ReLU по сравнению с единицей tanh.

РЕЛУ. Выпрямленная линейная единица стала очень популярной в последние несколько лет. Вычисляет функцию . Другими словами, активация просто пороговая в нуле (см. Изображение выше слева). Есть несколько плюсов и минусов использования ReLU:f(x)=max(0,x)

  • (+) Было обнаружено, что он значительно ускоряет (например, в 6 раз у Крижевского и др. ) Сходимость стохастического градиентного спуска по сравнению с сигмоидальной / танховой функциями. Утверждается, что это связано с его линейной ненасыщенной формой.
  • (+) По сравнению с коричневыми / сигмовидными нейронами, которые требуют дорогостоящих операций (экспоненты и т. Д.), ReLU может быть реализован простым установлением порога матрицы активаций в нуле.
  • (-) К сожалению, юниты ReLU могут быть хрупкими во время тренировок и могут «умереть». Например, большой градиент, протекающий через нейрон ReLU, может привести к тому, что веса обновятся таким образом, что нейрон никогда больше не активируется ни на одном из точек данных. Если это произойдет, то градиент, текущий через единицу, будет всегда нулевым с этой точки. То есть блоки ReLU могут необратимо умереть во время обучения, поскольку они могут быть сбиты с коллектора данных. Например, вы можете обнаружить, что до 40% вашей сети могут быть «мертвыми» (т.е. нейроны, которые никогда не активируются по всему набору обучающих данных), если скорость обучения установлена ​​слишком высокой. При правильной настройке скорости обучения это не так часто.

Leaky ReLU. Leaky ReLUs - это одна из попыток решить проблему «умирающего ReLU». Вместо того, чтобы функция была нулевой, когда x <0, ReLU с утечкой будет иметь небольшой отрицательный наклон (0,01 или около того). То есть функция вычисляет где - небольшая постоянная. Некоторые люди сообщают об успехе с помощью этой формы функции активации, но результаты не всегда согласуются. Наклон в отрицательной области также может быть превращен в параметр каждого нейрона, как видно из нейронов PReLU, представленных в « Погружении глубоко в выпрямители» , Kaiming He et al., 2015. Тем не менее, в настоящее время согласованность выгод по задачам не понятно.f(x)=1(x<0)(αx)+1(x>=0)(x)α

введите описание изображения здесь

Maxout . Были предложены другие типы единиц, которые не имеют функциональной формы где к точечному произведению применяется нелинейность между весами и данными. Одним из относительно популярных вариантов является нейрон Maxout (недавно представленный Goodfellow et al. ), Который обобщает ReLU и его утечку. Нейрон Maxout вычисляет функцию . Обратите внимание, что как ReLU, так и Leaky ReLU являются частным случаем этой формы (например, для ReLU мы имеемf(wTx+b)max(w1Tx+b1,w2Tx+b2)w1,b1=0). Поэтому нейрон Maxout обладает всеми преимуществами блока ReLU (линейный режим работы, без насыщения) и не имеет своих недостатков (умирающий ReLU). Однако, в отличие от нейронов ReLU, он удваивает количество параметров для каждого отдельного нейрона, что приводит к большому общему количеству параметров.

На этом мы завершаем обсуждение наиболее распространенных типов нейронов и их активационных функций. В качестве последнего комментария очень редко можно смешивать и совмещать нейроны разных типов в одной сети, хотя в этом нет принципиальной проблемы.

TLDR : « Какой тип нейронов мне следует использовать? » Используйте нелинейность ReLU, будьте осторожны с вашей скоростью обучения и, возможно, следите за долей «мертвых» единиц в сети. Если это касается вас, попробуйте Leaky ReLU или Maxout. Никогда не используйте сигмовидную кишку. Попробуйте tanh, но ожидайте, что он будет работать хуже, чем ReLU / Maxout.


Лицензия:


Лицензия MIT (MIT)

Copyright (c) 2015 Андрей Карпати

Настоящим предоставляется бесплатное разрешение любому лицу, получающему копию этого программного обеспечения и связанных с ним файлов документации (далее - «Программное обеспечение»), осуществлять операции с Программным обеспечением без ограничений, включая, помимо прочего, права на использование, копирование, изменение, слияние. публиковать, распространять, сублицензировать и / или продавать копии Программного обеспечения, а также разрешать лицам, которым предоставляется Программное обеспечение, делать это при соблюдении следующих условий:

Вышеуказанное уведомление об авторских правах и это уведомление о разрешении должны быть включены во все копии или существенные части Программного обеспечения.

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРЕДОСТАВЛЯЕТСЯ «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВКЛЮЧАЯ, НО НЕ ОГРАНИЧИВАЯСЯ ГАРАНТИИ ТОВАРНОГО ОБЕСПЕЧЕНИЯ, ПРИГОДНОСТИ ДЛЯ ОСОБЫХ ЦЕЛЕЙ И НЕЗАКРЕПЛЕНИЙ. Ни при каких обстоятельствах авторы или держатели авторских прав не несут ответственности за любые претензии, ущерб или другую ответственность, возникающие в результате действия контракта, деликтного или иного действия, возникающие в результате, в результате или в связи с программным обеспечением или использованием в других отношениях. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ.*

Другие ссылки:


10

Я не думаю, что список с плюсами и минусами существует. Функции активации сильно зависят от приложения и зависят также от архитектуры вашей нейронной сети ( здесь, например, вы видите применение двух функций softmax, которые аналогичны сигмоидальной).

Вы можете найти некоторые исследования об общем поведении функций, но я думаю, что у вас никогда не будет определенного и окончательного списка (что вы спрашиваете ...).

Я еще студент, поэтому я указываю то, что я знаю до сих пор:

  • здесь вы найдете некоторые мысли о поведении tanh и сигмоидов с обратным распространением. Tanh более общие, но сигмоиды ... (всегда будет "но")
  • В « Глубоких разреженных нейронных сетях выпрямителя» Глота Ксавьера и др. Они утверждают, что выпрямительные единицы более вероятны с биологической точки зрения и работают лучше, чем другие (сигмоид / танх)

Это правильный ответ. Можно составить список, но плюсы и минусы полностью зависят от данных. На самом деле, функции активации обучения гораздо более разумны в теории. Причина, по которой на этом не так много исследований, заключается в том, что сигмоид "просто работает". В конце концов, ваше единственное преимущество - скорость сходимости, которая часто не важна
запустите DOSrun

4

Просто для полноты картины на большом ответ Даниэля, есть и другие парадигмы, где один случайно «раскручивает колесо» на весах и / или типа активаций: жидкое состояния машины , экстремальных учебных машин и эха государственных сетей .

Один из способов подумать об этих архитектурах: резервуар - это своего рода ядро, как в SVM, или один большой скрытый слой в простой FFNN, где данные проецируются в некоторое гиперпространство. Фактического обучения нет, резервуар перерабатывается до тех пор, пока не будет найдено удовлетворительное решение.

Также посмотрите этот хороший ответ .


2

Статью с обзором последних функций активации можно найти в

« Функции активации: сравнение тенденций в практике и исследованиях для глубокого обучения » Чигози Эньинны Нванкпа, Винифреда Иджомы, Энтони Гачагана и Стивена Маршалла

Глубокие нейронные сети успешно используются в разнообразных новых областях для решения сложных задач реального мира с использованием архитектуры более глубокого обучения (DL), разрабатываемой до настоящего времени. Для достижения этих современных характеристик архитектуры DL используют функции активации (AF) для выполнения различных вычислений между скрытыми уровнями и выходными уровнями любой данной архитектуры DL. В этой статье представлен обзор существующих AF, используемых в приложениях для глубокого обучения, и освещены последние тенденции использования функций активации для приложений для глубокого обучения. Новизна этого документа заключается в том, что в нем собрана большая часть AF, используемых в DL, и в общих чертах изложены текущие тенденции в приложениях и использовании этих функций в практических развертываниях глубокого обучения на основе самых современных результатов исследований. Эта компиляция поможет в принятии эффективных решений по выбору наиболее подходящей и подходящей функции активации для любого конкретного приложения, готового к развертыванию. Этот документ является своевременным, потому что большинство исследовательских работ по AF выделяют похожие работы и результаты, в то время как этот документ будет первым, в котором будут собраны тенденции применения AF на практике с результатами исследований из литературы, обнаруженными в исследованиях глубокого обучения на сегодняшний день.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.