Почему сигмовидная функция вместо всего остального?


40

Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?11+ex

Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях . Один из моих любимых вариантов с медленным затуханием и быстрым вычислением - это .x1+|x|

РЕДАКТИРОВАТЬ

Вопрос отличается от Всестороннего списка функций активации в нейронных сетях с плюсами / минусами, так как меня интересует только «почему» и только для сигмоида.


6
Обратите внимание, что логистическая сигмоида является частным случаем функции softmax, и посмотрите мой ответ на этот вопрос: stats.stackexchange.com/questions/145272/…
Нил Г,

10
Есть и другие функции, такие как пробит или клоглог, которые обычно используются, см .: stats.stackexchange.com/questions/20523/…
Тим

4
@ user777 Я не уверен, является ли это дубликатом, так как нить, на которую вы ссылаетесь, на самом деле не отвечает на вопрос « почему» .
Тим

@KarelMacek, вы уверены, что его производная не имеет левого / правого предела в 0? Практически выглядит так, как будто имеет хорошее касательное к связанному изображению из Википедии.
Марк Хорват

5
Я не хочу не соглашаться с таким большим количеством уважаемых членов сообщества, которые проголосовали за то, чтобы закрыть это как дубликат, но я убежден, что кажущийся дубликат не затрагивает «почему», и поэтому я проголосовал, чтобы вновь открыть этот вопрос.
whuber

Ответы:


24

Цитирую себя из этого ответа на другой вопрос:

В разделе 4.2 « Распознавания образов и машинного обучения» (Springer 2006) Бишоп показывает, что логит возникает естественным образом как форма апостериорного распределения вероятностей в байесовской трактовке двухклассовой классификации. Затем он продолжает показывать, что то же самое справедливо для дискретно распределенных функций, а также для подмножества семейств экспоненциальных распределений. Для мультиклассовой классификации логит обобщается до нормализованной экспоненциальной или софтмакс-функции.

Это объясняет, почему этот сигмоид используется в логистической регрессии.

Что касается нейронных сетей, этот пост в блоге объясняет, как различные нелинейности, в том числе logit / softmax и пробит, используемые в нейронных сетях, могут получить статистическую интерпретацию и, следовательно, мотивацию. Основная идея заключается в том, что многослойная нейронная сеть может рассматриваться как иерархия обобщенных линейных моделей; в соответствии с этим функции активации являются функциями связи, которые, в свою очередь, соответствуют различным предположениям о распределении.


1
Большой! Поэтому, когда мы используем сигмоиды в сети, мы можем неявно предполагать, что сеть «моделирует» вероятности различных событий (на внутренних уровнях или на выходе). Это может быть разумной моделью внутри сети даже для квадратичной ошибки (учитывая, что выходной нейрон имеет другую функцию активации). Никогда раньше не думал об этой интуиции, спасибо!
Марк Хорват

@MarkHorvath Рад, что я мог помочь. :-)
А.Донда

Исторически не так. Мое лучшее обобщение запутанной истории состоит в том, что логит вошел в статистическую науку в значительной степени потому, что функциональные формы, используемые для прогнозирования изменений во времени (группы населения должны были следовать логистическим кривым), выглядели примерно правильно, когда были адаптированы и приняты как функции связи [анахроническое использование там!] Для бинарных ответов. ; и ими легко манипулировать с помощью простого исчисления, чего нет в выражениях в абсолютных значениях. Но, естественно, простейшее логическое обоснование для таких функций является интересным и решающим, и ваш ответ на это.
Ник Кокс

1
Я прочитал разделы в обеих книгах епископа (2006 и 1995) и до сих пор не убежден, что сигмоид здесь важен, хотя я определенно получаю мотивацию с помощью logit. Что если я запишу ту же самую функцию кросс-энтропийной потери, основанную на предположении Пуассона 2-го класса, но затем использую другую функцию активации вместо сигмоида? Например, этот похожий, но не совсем хороший, определенный кусочно: g (x) = 1 / (2-2x), если x <0, 1 - 1 / (2 + 2x) для x> 0, g (0) = 0,5. Теперь уравнение максимального правдоподобия выглядит иначе, но если мы его минимизируем, разве мы не получим вероятности в качестве выходных данных?
Эрауль

если бы Бишоп взял , «естественной» функцией была бы , не так ли? aa=p(x,C1)(1+p(x,C1))p(x,C2)a1+a2
г-н Цжолдер

18

Одна из причин, по которой эта функция может показаться более «естественной», чем другие, заключается в том, что она оказывается обратной к каноническому параметру распределения Бернулли: (функция в показателе степени называется каноническим параметром.)п

f(y)=py(1p)1y=(1p)exp{ylog(p1p)}.
p

Возможно, более убедительное обоснование приходит из теории информации, где сигмовидная функция может быть выведена как модель максимальной энтропии . Грубо говоря, сигмовидная функция предполагает минимальную структуру и отражает наше общее состояние неосведомленности о базовой модели.


Хорошее обоснование логистической регрессии. Самое смешное, что мы продолжаем использовать это и для квадратичной ошибки ...
Марк Хорват,

11

Я задавал себе этот вопрос месяцами. Ответы на CrossValidated и Quora все перечисляют хорошие свойства функции логистической сигмоиды, но кажется, что мы хитро угадали эту функцию. То, что я пропустил, было оправданием выбора. Я наконец нашел один в разделе 6.2.2.2 книги Bengio «Глубокое обучение» (2016) . Моими словами:

Короче говоря, мы хотим, чтобы логарифм выходных данных модели был пригоден для градиентной оптимизации логарифмической вероятности обучающих данных.

мотивация

  • Нам нужна линейная модель, но мы не можем использовать непосредственно как .z=wTx+bz(,+)
  • Для классификации имеет смысл принять распределение Бернулли и смоделировать его параметр в .θP(Y=1)=θ
  • Итак, нам нужно отобразить из в чтобы выполнить классификацию.z(,+)[0,1]

Почему логистическая сигмовидная функция?

Обрезка с дает нулевой градиент для вне . Нам нужен сильный градиент всякий раз, когда прогноз модели неверен, потому что мы решаем логистическую регрессию с градиентным спуском. Для логистической регрессии не существует решения в закрытой форме.zP(Y=1|z)=max{0,min{1,z}}z[0,1]

Логистическая функция обладает хорошим свойством асимптотики постоянного градиента, когда прогноз модели неверен, учитывая, что мы используем оценку максимального правдоподобия, чтобы соответствовать модели. Это показано ниже:

Для получения числовых преимуществ оценку максимального правдоподобия можно выполнить путем минимизации отрицательного логарифмического правдоподобия обучающих данных. Итак, наша функция стоимости:

J(w,b)=1mi=1mlogP(Y=yi|xi;w,b)=1mi=1m(yilogP(Y=1|z)+(yi1)logP(Y=0|z))

Поскольку , мы можем сосредоточиться на случае . Итак, вопрос в том, как смоделировать учитывая, что мы имеем .P(Y=0|z)=1P(Y=1|z)Y=1P(Y=1|z)z=wTx+b

Очевидные требования для функции отображающей на :fzP(Y=1|z)

  • zR:f(z)[0,1]
  • f(0)=0.5
  • f должен быть вращательно-симметричным относительно , то есть , так что переключение знаков классов не влияет на функцию стоимости.(0,0.5)f(x)=1f(x)
  • f должно быть неубывающим, непрерывным и дифференцируемым.

Все эти требования выполняются путем изменения масштаба сигмоидальных функций . Оба и выполняют их. Однако сигмоидальные функции различаются по своему поведению во время градиентной оптимизации логарифмической вероятности. Мы можем увидеть разницу, подключив логистическую функцию к нашей функции стоимости.f(z)=11+ezf(z)=0.5+0.5z1+|z|f(z)=11+ez

Насыщенность дляY=1

Для и стоимость одной ошибочно классифицированной выборки (т. Е. ) составляет:P(Y=1|z)=11+ezY=1m=1

J(z)=log(P(Y=1|z))=log(11+ez)=log(ez1+ez)=z+log(1+ez)

Мы можем видеть, что существует линейная составляющая . Теперь мы можем рассмотреть два случая:z

  • Когда велико, прогноз модели был верным, поскольку . В функции стоимости член асимптотически равен для больших . Таким образом, он примерно отменяет выход , что приводит к примерно нулевой стоимости для этого образца и слабому градиенту. Это имеет смысл, так как модель уже предсказывает правильный класс.zY=1log(1+ez)zzz
  • Когда мало (а велика), предсказание модели было не правильно, так . В функции стоимости член асимптотически равен для малых . Таким образом, общая стоимость для этого образца составляет примерно , что означает, что градиент по отношению к составляет примерно . Это позволяет модели корректировать свое неправильное предсказание на основе постоянного градиента, который она получает. Даже при очень малых значениях насыщение не происходит, что может привести к исчезновению градиентов.z|z|Y=1log(1+ez)0zzz1z

Насыщенность дляY=0

Выше мы сосредоточились на случае . Для функция стоимости ведет себя аналогично, обеспечивая сильные градиенты только тогда, когда прогноз модели неверен.Y=1Y=0

Это функция стоимости для :J(z)Y=1

введите описание изображения здесь

Это горизонтальная функция softplus. Для это функция softplus.Y=0

альтернативы

Вы упомянули об альтернативах функции логистической сигмоиды, например . Нормализовано до , это будет означать, что мы моделируем .z1+|z|[0,1]P(Y=1|z)=0.5+0.5z1+|z|

Во время MLE функция стоимости для будет тогдаY=1

J(z)=log(0.5+0.5z1+|z|) ,

который выглядит так:

введите описание изображения здесь

Вы можете видеть, что градиент функции стоимости становится все слабее для .z


Что вы имеете в виду, когда пишете «когда модель не права»?
Габриэль Ромон

@GabrielRomon Я имею в виду, когда прогноз модели неверен. Таким образом, для обучающей выборки у нас будет, например, , то есть наш прогноз - класс 1, но . z = 5 y i = 0(xi,yi)z=5yi=0
Килиан Батцнер

6

Поскольку в первоначальном вопросе упоминалась проблема затухающего градиента, я просто хотел бы добавить, что для промежуточных слоев (где вам не нужно интерпретировать активации как вероятности классов или результаты регрессии), другие нелинейности часто предпочтительнее сигмоидальных функций. Наиболее заметными являются функции выпрямителя (как в ReLU ), которые линейны по положительной области и равны нулю по отрицательной. Одним из их преимуществ является то, что они менее подвержены проблеме затухающего градиента, потому что производная постоянна по положительной области. ReLU стали популярными настолько, что сигмоиды, вероятно, уже нельзя назвать стандартом де-факто.

Глорот и др. (2011) . Глубокие разреженные выпрямительные нейронные сети


2
Ага. Я думаю, что причина, почему логистическая функция была так популярна, была связана с ее импортом из статистики. Relu является самым популярным во многих областях в настоящее время.
Рикардо Крус
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.